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大 数据 时 代 , 数 据 已 成 为 人 们 进行 商务 决策 时 最 重要 的 参考 依据 之 一 ,数据 分 析 行 
业 迈 入 了 一 个 全 新 的 阶段 。《 经 济 金融 数据 分 析 及 其 Python 应 用 》 重 点 介绍 了 Python 
的 数据 存 取 、 数 据 的 可 视 化 数据 统计 分 析 、 机 器 学 习 、 时 间 序列 分 析 和 人 金融 量化 分 析 的 
Python 应 用 ,同时 结合 大 量 的 实例 ,对 Python 的 重要 程序 包 进 行 科 学 、 准 确 和 全 面 的 介 
绍 , 以 便 使 读者 深刻 理解 Python 的 精髓 和 灵活 、 高 效 的 使 用 技巧 。 

本 书 之 所 以 采用 Python 软件 ,是 因为 它 具 有 强大 的 图 形 展示 、 统 计 分析 、 机 器 学 习 
功能 ,免费 使 用 及 功能 强大 的 Pandas( 基 本 数据 分 析 工 具 )、NumPy( 数 值 计算 工具 )、 
SciPy( 科 学 计算 工具 )、Matplotlib( 基 础 绘图 工具 )、Seaborn( 扩 展 绘图 工具 )、Sklearn( 机 
器 学 习 工 具 ) 等 众多 程序 包 ( 而 Matlab、SAS、SPSS、EViews、Stata、S-PLUS 等 都 是 付费 
软件 ) ,因此 它 越 来 越 受 到 广大 用 户 的 欢迎 和 喜爱 。 

本 书 通过 丰富 的 实例 ,详细 介绍 了 Python 在 数据 存 取 、 图 形 展示 、 统 计 分 析 、 机 器 
学 习 、 时 间 序 列 、 量 化 金融 等 领域 中 的 应 用 ,侧重 于 理论 方法 与 应 用 相 结 合 ,实例 丰富 且 
通俗 易 懂 , 尤 其 对 Python 软件 的 各 种 绘图 方法 不 同 数 据 表 的 接口 统计 分 析 、 机 器 学 
习 、 时 间 序 列 、 量 化 金融 等 方面 的 介绍 有 较 好 的 特色 ,详细 地 介绍 了 各 种 绘图 方法 \ 不 同 
数据 的 接口 .统计 分 析 、 机 器 学 习 、 时 间 序 列 、 量 化 金融 等 方面 在 Python 中 的 实现 过 程 。 
本 书 的 特点 是 : 以 问题 为 导向 ,通过 问题 来 介绍 Python 的 使 用 方法 。 因 此 ,读者 通过 本 
书 不 仅 能 掌握 Python 及 相关 的 程序 包 的 使 用 方法 ,而 且 能 学 会 从 实际 问题 分 析 入 手 ， 
应 用 Python 解决 经 济 金融 领域 中 的 各 种 数据 分 析 问 题 。 

本 书 的 内 容 是 这 样 安排 的 : 第 1 章 介 绍 经 济 金 融 数 据 分 析 及 Python 环境 ,第 2 章 
介绍 Python 数据 分 析 程 序 包 应 用 基础 ,第 3 章 介绍 Python 数据 分 析 的 数据 存 取 ,第 4 
章 介绍 Python 图 形 的 绘制 和 可 视 化 ,第 5 章 介 绍 概率 统计 分 布 的 Python 应 用 ,第 6 章 
介绍 描述 性 统计 的 Python 应 用 ,第 7 章 介绍 参数 估计 的 Python 应 用 ,第 8 章 介 绍 参 数 
假设 检验 的 Python 应 用 ,第 9 章 介绍 相关 分 析 与 一 元 回归 数据 分 析 的 Python 应 用 ,第 
10 章 介 绍 多 元 回归 数据 分 析 的 Python 应 用 ,第 11 章 介 绍 机 器 学 习 数据 分 析 的 Python 
应 用 ,第 12 章 介绍 时 间 序 列 数据 分 析 的 Python 应 用 ,第 13 章 介绍 量化 金融 数据 分 析 的 
Python 应 用 。 

本 书 实例 和 内 容 丰 富 , 针 对 性 强 , 书 中 各 章 详细 地 介绍 了 实例 的 Python 具体 操作 
过 程 ,读者 只 需 按照 书 中 介绍 的 步骤 一 步 一 步 地 实际 操作 ,就 能 掌握 全 书 的 内 容 。 为 了 
帮助 读者 更 加 直观 地 学 习 本 书 ,我 们 将 书 中 实例 的 全 部 数据 文件 打包 收录 ,读者 可 扫描 
书 末 页 的 二 维 码 获取 。 读 者 在 自己 的 电脑 中 建立 一 个 data 目录 (其 他 目录 名 也 可 以 )， 
将 所 有 数据 文件 复制 到 此 目录 , 即 可 进行 操作 。 

本 书 适 合作 为 统计 学 、 金 融 学 、 经 济 学 、 管 理学 等 相关 专业 的 本 科 生 或 研究 生 学 习 
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析 的 实际 工作 者 也 大 有 神 益 。 

本 书 部 分 内 容 为 广东 省 自然 科学 基金 项 目 成 果 , 也 是 广东 财经 大 学 数据 模型 与 决策 示范 课 
程 的 阶段 性 成 果 。 

本 书 的 出 版 得 到 了 清华 大 学 出 版 社 编校 人 员 的 大 力 支持 和 帮助 ,感谢 他 们 为 本 书 编辑 校对 
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数据 分 析 是 指 用 适当 的 统计 与 计量 分 析 方 法 对 收集 来 的 大 量 数据 进行 分 析 , 提 取 有 用 
信息 和 形成 结论 而 对 数据 加 以 详细 研究 和 概括 总 结 的 过 程 。 这 一 过 程 也 是 质量 管理 体系 的 
支持 过 程 。 在 实用 中 ,数据 分 析 可 帮助 人 们 作出 判断 ,以 便 采 取 适 当 行 动 。 

大 数据 分 析 是 指 对 规模 巨大 的 数据 进行 分 析 。 大 数据 的 特点 可 以 概括 为 5 个 V ,数据 
量 大 (volume) ,速度 快 (velocity) 、 类 型 多 (variety) 、 有 价值 (value) 、 真 实 性 (veracity)。 大 数 
据 已 成 为 IT 行业 时 下 最 火热 的 词汇 。 随 之 而 来 的 数据 仓库 、 数 据 安全 、 数 据 分 析 数据 挖 
气 等 等 用 绕 大 数据 的 商业 价值 的 利用 逐渐 成 为 行业 人 士 争 相 追 捧 的 利润 焦点 。 随 着 大 数据 
时 代 的 来 临 ,大 数据 分 析 也 应 运 而 生 。 

本 章 简要 介绍 经 济 金融 数据 的 类 型 ,来 源 ,主要 的 数据 分 析 软 件 包 ,以 及 目前 流行 的 经 
济 金融 数据 分 析 Python 语言 及 其 环境 。 


1.1 经 济 金融 数据 类 型 


经 济 金融 中 需要 处 理 的 数据 类 型 主要 有 三 类 : 横 截 面 数据 时间 序列 数据 和 面板 数据 。 
1.1.1 横 截面 数据 


模 截面 数据 是 同一 时 间 ( 时 期 或 时 点 ) 某 一 指标 在 不 同 空间 的 观测 数据 。 如 某 一 时 点 中 
国 A 股市 场 的 平均 收益 率 ,2017 年 所 有 A 股 上 市 公司 的 净 资 产 收 益 率 。 在 利用 横 截面 数 
据 作 分 析 时 ,由 于 单个 或 多 个 解释 变量 观测 值 起 伏 变化 会 对 被 解释 产生 不 同 的 影响 ,因而 导 
致 异 方差 问题 。 因 此 在 数据 整理 时 必须 消除 异 方差 。 


1.1.2 时 间 序 列 数据 


时 间 序 列 数据 即 按时 间 序 列 排列 的 数据 ,也 称 为 动态 序列 数据 。 时 间 序 列 数 据 是 按照 
一 定时 间 间 隔 对 某 一 变量 或 不 同时 间 的 取 值 进行 观测 所 得 到 的 一 组 数据 ,例如 每 一 季度 的 
GDP 数据 ,每 一 天 的 股票 交易 数据 或 债券 收益 率 数据 等 。 在 经 济 金融 数据 分 析 中 ,时 间 序 
列 数据 是 常见 的 一 类 数据 类 型 。 


1.1.3 面板 数据 


面板 数据 即时 间 序 列 数据 和 横 截 面 数据 相 结合 的 数据 。 
金融 领域 以 时 间 序 列 数据 分 析 ( 如 金融 市 场 ) 与 面板 数据 分 析 ( 如 公司 金融 ) 为 主 。 
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1.2 经 济 金融 数据 来 源 


1.2.1 专业 性 网 站 

如 国家 统计 局 网 站 ,中 国人 民 银 行 网 站 中 国 证 监 会 网 站 、 世 界 银行 网 站 、 国 际 货币 基金 
组 织 网 站 等 。 
1.2.2 专业 数据 公司 和 信息 公司 


国外 数据 库 主 要 有 芝加哥 大 学 商学 院 的 证 券 价格 研究 中 心 (CRSP) .路 透 (Reuters) 终 
端 . 彭 博 (Bloomberg) 终 端 . 雅 虎 财经 等 。 国 内 提供 经 济 金融 数据 库 主要 有 : CCER 中 国 经 
济 金融 数据 库 、 国 泰安 数据 库 (GTA) ,万 德 数 据 库 (Wind) 、 锐 思 数 据 库 等 。 如 表 1-1 所 示 。 


表 1-1 经 济 金融 数据 库 


数据 来 源 名 称 网 址 
CRSP www. chicagobooth. edu 
路 透 www. reuters. com 
彭 博 www. bloomberg. com 
雅虎 财经 www. finance. yahoo. com 
万 得 Wind 经 济 金 融 数据 库 www. wind. com. cn 
国泰 安 GTA 经 济 金融 数据 库 www. gtadata. com 
CCER 中 国 经 济 金融 数据 库 www. ccer. edu. cn 
聚 源 锐 思 经 济 金 融 数据 库 www. resset. cn 
天 相 经 济 金融 数据 库 Www. txsec. com/zqsc/tx_data. asp 

1.2.3 抽样 调查 


抽样 调查 是 针对 某 些 专门 的 研究 开展 的 一 类 获取 数据 的 方式 。 比 如 ,要 对 中 国 的 投资 
者 信心 进行 建 模 , 就 必须 通过 设计 调查 问卷 ,对 不 同 的 投资 群体 进行 数据 采集 。 


1.3 经 济 金融 数据 分 析 工具 简介 


1.3.1 Python 数据 分 析 工 具 简 介 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ,由 Guido van Rossum 于 1989 
年 底 发 明 ,第 一 个 公开 发 行 版 发 行 于 1991 年 ,Python 源 代码 同样 遵循 GPL(GNU General 
Public License) 协 议 。Python 语法 简洁 而 清晰 ,具有 丰富 和 强大 的 类 库 。 它 常 被 昵称 为 胶 
水 语言 ,能够 把 用 其 他 语言 制作 的 各 种 模块 (尤其 是 C/C++) 很 轻松 地 联结 在 一 起 。 常 见 的 
一 种 应 用 情形 是 ,使 用 Python 快速 生成 程序 的 原型 (有 时 甚至 是 程序 的 最 终 界面 ) ,然后 对 
其 中 有 特别 要 求 的 部 分 ,用 更 合适 的 语言 改写 ,比如 3D 游戏 中 的 图 形 泻 染 模 块 ,性 能 要 求 
特别 高 ,就 可 以 用 C/C++ 重 写 ,而 后 封装 为 Python 可 以 调用 的 扩展 类 库 。 需 要 注意 的 是 在 
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您 使 用 扩展 类 库 时 可 能 需要 考虑 平台 问题 , 某 些 可 能 不 提供 跨 平台 的 实现 。 d 
Python 需要 安装 Pandas、NumPy、SciPy、Statsmodels、Matplotlib 等 一 系列 的 程序 包 ， 
还 需要 安装 IPython 交互 环境 ,目前 有 包括 这 些 程序 包 的 套装 软件 可 供 下 载 。 
详细 内 容 请 登录 https://www. Python. org 查询 。 


1.3.2 R 数据 分 析 工 具 简 介 


R 是 统计 领域 广泛 使 用 的 诞生 于 1980 年 左右 的 S 语言 的 一 个 分 支 。 可 以 认为 R 是 S 
语言 的 一 种 实现 。 而 S 语 言 是 由 AT&T 贝尔 实验 室 开 发 的 一 种 用 来 进行 数据 探索 ,统计 
分 析 和 作 图 的 解释 型 语言 。 最 初 S 语言 的 实现 版 本 主要 是 SPLUS。S-PLUS 是 一 个 商业 
软件 , 它 基 于 S 语言 ,并 由 MathSoft 公司 的 统计 科学 部 进一步 完善 。 后 来 Auckland 大 学 
的 Robert Gentleman 和 Ross Ihaka 及 其 他 志愿 人 员 开 发 了 一 个 R 系统 。 由 “R 开发 核心 
团队 ”负责 开发 。R 是 基于 S 语言 的 一 个 GNU 项 目 , 所 以 也 可 以 当 作 S 语言 的 一 种 实现 ， 
通常 用 S 语 言 编写 的 代码 都 可 以 不 作 修 改 地 在 R 环境 下 运行 。R 的 语法 是 来 自 Scheme。 
R 的 使 用 与 SPLUS 有 很 多 类 似 之 处 ,这 两 种 语言 有 一 定 的 兼容 性 。S-PLUS 的 使 用 手册 ， 
只 要 稍 加 修改 就 可 作为 R 的 使 用 手册 。 所 以 有 人 说 : R 是 S-PLUS 的 一 个 “克隆 ”。 

详细 内 容 请 登录 : http://cran. rproject. org 查询 。 


1.3.3 Stata 数据 分 析 工 具 简介 


Stata 由 美国 计算 机 资源 中 心 (Computer Resource Center)1985 年 研制 。 其 特点 是 采 
用 命令 行 /程序 操作 方式 ,程序 短小 精 悍 ,功能 强大 。Stata 是 一 套 提供 其 使 用 者 数据 分 析 、 
数据 管理 以 及 绘制 专业 图 表 的 完整 及 整合 性 统计 软件 。 它 提供 许 许多 多 功能 ,包含 线性 混 
合 模型 .均衡 重复 反复 及 多 项 式 普 罗 比 模式 。 新 版 本 的 Stata 采用 最 具 亲 和 力 的 窗口 接口 ， 
使 用 者 自行 建立 程序 时 ,软件 能 提供 具有 直接 命令 式 的 语法 。Stata 提供 完整 的 使 用 手册 ， 
包含 统计 样本 建立 、 解 释 、 模 型 与 语法 、 文 献 等 出 版 品 。 

除 此 之 外 ,Stata 工具 可 以 通过 网 络 实时 更 新 最 新 功能 ,更 可 以 得 知 世界 各 地 的 使 用 者 
对 于 Stata 公司 提出 的 问题 与 解决 之 道 。 使 用 者 也 可 以 通过 Stata Journal 获得 许 许多 多 的 
相关 信息 以 及 书籍 介绍 等 。 另 外 一 个 获取 庞大 资源 的 渠道 就 是 Statalist, 它 是 一 个 独立 的 
listserver, 每 月 交替 提供 使 用 者 超过 1000 条 信息 以 及 50 个 程序 。 

目前 最 新 版 为 Stata 14.0 版 。 

详细 内 容 请 登录 http://www. stata. com 查询 。 


1.3.4 Matlab 数据 分 析 工 具 简 介 


Matlab 工具 是 由 美国 Mathworks 公司 推出 的 用 于 数值 计算 和 图 形 处 理 的 科学 计算 系 
统 ,在 Matlab 工具 环境 下 ,用 户 可 以 集成 地 进行 程序 设计 、 数 值 计算 、 图 形 绘制 .输入 输出 、 
文件 管理 等 各 项 操作 。 它 提供 的 是 一 个 人 机 交互 的 数学 系统 环境 ,与 利用 C 语言 作 数值 计 
算 的 程序 设计 相 比 ,利用 Matlab 可 以 节省 大 量 的 编程 时 间 , 且 程序 设计 自由 度 大 。 它 最 大 
的 特点 是 给 用 户 带 来 最 直观 ` 最 简洁 的 程序 开发 环境 ,语言 简洁 紧凑 ,使 用 方便 灵活 , 库 函 数 
与 运算 符 极其 丰富 ,另外 具有 强大 的 图 形 功能 。 

在 国际 学 术 界 ,Matlab 已 经 被 确认 为 准确 .可 靠 的 科学 计算 标准 软件 ,许多 国际 一 流 学 
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术 刊 物 上 ,都 可 以 看 到 Matlab 的 应 用 。 
详细 内 容 请 登录 http://www. mathworks. com 查询 。 


1.3.5 ”EViews 数据 分 析 工 具 简 介 


EViews 是 美国 GMS 公司 1981 年 发 行 的 第 1 版 Micro TSP 的 Windows 版 本 ,通常 称 
为 计量 经 济 学 软件 包 。EViews 是 Econometrics Views 的 缩写 , 它 的 本 意 是 对 社会 经 济 关 
系 与 经 济 活动 的 数量 规律 ,采用 计量 经 济 学 方法 与 技术 进行 “观察 ”。 计 量 经 济 学 研究 的 核 
心 是 设计 模型 ,收集 资料 、 估 计 模 型 .检验 模型 .运用 模型 进行 预测 .求解 模型 和 应 用 模型 。 
EViews 是 完成 上 述 任务 必 不 可 少 的 得 力 工具 。 正 是 由 于 EViews 等 计量 经 济 学 软件 包 的 
出 现 , 使 计量 经 济 学 取得 了 长 足 的 进步 ,发 展 为 实用 与 严谨 的 经 济 学 科 。 使 用 EViews 软件 
包 可 以 对 时 间 序 列 和 非 时 间 序 列 的 数据 进行 分 析 , 建 立 序列 (变量 ) 间 的 统计 关系 式 ,并 用 该 
关系 式 进行 预测 .模拟 等 。 虽 然 EViews 是 由 经 济 学 家 开发 的 ,并 且 大 多 数 被 用 于 经 济 学 领 
域 , 但 并 非 意味 着 该 软件 包 仅 可 用 于 处 理 经 济 方面 的 时 间 序 列 。EViews 处 理 非 时 间 序 列 
数据 照样 得 心 应 手 。 实 际 上 ,相当 大 型 的 非 时 间 序 列 ( 截 面 数据 ) 的 项 目 也 能 在 EViews 中 
进行 处 理 。 

详细 内 容 请 登录 http://www. eviews. com 查询 。 


1.3.6 SAS 数据 分 析 工 具 简 介 


SAS 是 美国 SAS 研究 所 研制 的 一 套 大 型 集成 应 用 软件 系统 ,具有 完备 的 数据 存 取 、 数 
据 管理 .数据 分 析 和 数据 展现 功能 。 尤 其 是 创业 产品 统计 分 析 系 统 部 分 ,由 于 其 具有 强大 的 
数据 分 析 能 力 ,一 直 为 业界 著名 软件 ,在 数据 处 理 和 统计 分 析 领 域 ,被 誉 为 国际 上 的 标准 软 
件 和 最 权威 的 优秀 统计 软件 包 , 广 泛 应 用 于 行政 管理 .科研 ,教育 .生产 和 金融 等 不 同 领域 ， 
发 挥 着 重要 的 作用 。SAS 系统 中 提供 的 主要 分 析 功 能 包括 统计 分 析 、 经 济 计量 分 析 、 时 间 
序列 分 析 ,决策 分 析 、 财 务 分 析 和 全 面 质量 管理 工具 等 。 

详细 内 容 请 登录 http://www. sas. com 查询 。 


1.3.7， SPSS 数据 分 析 工 具 简 介 


SPSS(statistical package for the social science) 一 一 社会 科学 统计 软件 包 , 是 世界 著名 
的 统计 分 析 软 件 之 一 。20 世纪 60 年 代 末 ,美国 斯 坦 福 大 学 的 三 位 研究 生 研 制 开发 了 最 早 
的 统计 分 析 软 件 SPSS, 同 时 成 立 了 SPSS 公司 ,并 于 1975 年 在 芝加哥 组 建 了 SPSS 总 部 。 
20 世纪 80 年 代 以 前 ,SPSS 统计 软件 主要 应 用 于 企 事业 单位 。1984 年 SPSS 总 部 首先 推出 
了 世界 第 一 个 统计 分 析 软 件 微机 版 本 SPSS/PC 十 ,开创 了 SPSS 微机 系列 产品 的 开发 方向 ， 
从 而 确立 了 个 人 用 户 市 场 第 一 的 地 位 。2009 年 IBM 收购 SPSS 公司 后 ,现在 在 中 国 市 场 上 
推出 的 最 新 产品 ,是 IBM SPSS Statistics 21. 0 多 国语 言 版 。SPSS/PC 十 的 推出 , 极 大 地 扩 
充 了 它 的 应 用 范围 ,使 其 能 很 快 地 应 用 于 自然 科学 、 技 术科 学 社会 科学 的 各 个 领域 ,世界 上 
许多 有 影响 的 报纸 杂志 纷纷 就 SPSS 的 自动 统计 绘图 .数据 的 深入 分 析 、 使 用 方便 ,功能 齐 
全 等 方面 给 予 了 高 度 的 评价 与 称赞 。 目 前 已 经 在 国内 逐渐 流行 起 来 。 它 使 用 Windows 的 
窗口 方式 展示 各 种 管理 和 分 析 数 据 方法 的 功能 ,使 用 对 话 框 展示 出 各 种 功能 选择 项 ,只 要 掌 
握 一 定 的 Windows 操作 技能 , 粗 通 统计 分 析 原 理 ,就 可 以 使 用 该 软件 为 特定 的 科研 工作 
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服务 。 

详细 内 容 请 登录 http://www. spss. com 查询 。 

还 有 一 些 统计 和 计量 经 济 学 软件 ,如 Statistica、S-PLUS 等 ,但 相对 来 说 没有 以 上 7 种 
软件 流行 。 各 软件 网 站 列表 如 表 1-2 所 示 。 


表 1-2 常见 的 经 济 金融 数据 分 析 工具 网 站 


工具 名 称 网 址 
Python www. Python. org 
R www. cran. r-project. org 
Stata www. stata. com 
Matlab www. mathworks. com 
EViews www. eviews. com 
SAS Www. sas. com 
SPSS Www. spss. com 


1.4 Python 数据 分 析 工 具 的 下 载 


输入 如 下 网 址 : https://mirrors. tuna. tsinghua. edu. cn/help/anaconda/, 即 可 下 载 
Anaconda, 它 是 一 个 用 于 科学 计算 Python 发 行 版 的 套装 软件 ,支持 Linux、Mac、Windows 
等 操作 系统 ,包含 了 众多 流行 的 科学 计算 、 数 据 分 析 的 Python 包 。 其 中 包括 Pandas、 
NumPy、SciPy、Statsmodels、Matplotlib 等 一 系列 的 程序 包 以 及 iPython 交互 环境 。 界 面 如 
图 1-1 所 示 。 
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rn i anid 


Aosp 


于 胃镜 像 使 用 帮助 
NT i 0 ee hea van a, 所 


bananion anda config -add channels “https://arrors. tenetsinghua.edu.cn/anaconda/pkgs/free/ 
onds config -set show chammel_ urls yes 


芭 可 汪 10 Araconda Python 锡 要 他 声 . 


运行 camda install umpy WA— Fe. 


图 1-1 Anaconda 安装 包 界面 


点 击 图 1-1 中 的 https://mirrors. tuna. tsinghua. edu. cn/anaconda/archive/ ,出 现 图 1-2 
所 示 的 界面 。 
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图 1-2 Anaconda 安装 包 界面 


在 图 1-2 中 ,选择 Anaconda2-2. 4. 1-Windows-x86. exe, 即 可 得 到 用 Python 作 经 济 金 
融 数 据 分 析 的 套装 软件 工具 。 也 可 以 选择 最 新 的 Anaconda3-4. 1. 1-Windows-x86. exe(32 
位 ) ,Anaconda3-4. 1. 1-Windows-x86_64. exe(64 位 )。 请 读者 注意 ,本 书 的 经 济 金融 数据 分 
析 以 下 载 的 Anaconda2-2. 4. 1-Windows-x86. exe(32 位 ) 工 具 来 说 明 其 应 用 。 下 载 界面 如 
图 1-3 所 示 ( 该 图 的 倒数 第 二 行 即 为 选择 的 下 载 对 象 ) 。 


Anaconda2-2. 4. 0-MacOSX-x86 64.pkg 02-Nov-2015 22:22 287613909 
Anaconda2-2. 4. 0-MacOSX-x86 64.sh 02-Nov-2015 22:22 251172115 
.0-Windows-x86. exe 02-Nov-2015 22:22 337056800 
.0-Windows-x86 64. exe 02-Nov-2015 406819096 

-2. 4. 1-Linux- 08-Dec-2015 260583576 

-2. 4. 1-Linuzx- 08-Dec-2015 277827702 
Anaconda2-2. 4. 1 -MacOSX-x86 64. pkg 08-Dec-2015 21: 257787337 
ol xz86 64. 3 08-Dec-2015 21: 222326344 

, 1 -Windows-x86. e 08-Dec-2015 21: 301790720 
Anaconda2-2. 4. 1-Windows-x86 64. exe 08-Dec-2015 21: 371393960 
co ,0-Linux-x86, sh 03-Feb-2016 21:41 346405513 
Anaconda2-2. 5. 0-Linux-x86 64. sh 03-Feb-2016 21:41 409842279 
0-MacOSX-x86 64. pkg 03-Feb-2016 21:55 385762781 

86 64. sh 03-Feb-2016 21:41 331485310 

Anaconda O-Windows-x86. exe 03-Feb-2016 21:45 310590880 
0-Windows-x86 64. exe 03-Feb-2016 21:46 365581384 

- 29-Mar-2016 16:14 348392297 

.0-Linux-x86 64. sh 29-Mar-2016 16:14 411562823 
.0-MacOSX-x86 64. pkg 29-Mar-2016 16:14 355703551 

C05X .sh 29-Mar-2016 16:14 304288480 

29-Mar-2016 294659856 

29-Mar-2016 350807856 

28-Jun-2016 340190685 

28-Jun-2016 418188731 

28-Jun-2016 360909420 

28-Jun-2016 309460309 

1. 0-Windows-x86. exe 28-Jun-2016 298958864 
.0-Windows-x86 64. exe 28-Jun-2016 356677104 

-Linux-x86. sh 08-Jul-2016 340385173 

1-Linux-x86 64. sh 08-Jul-2016 419038579 

08-Jul-2016 361721748 

08-Jul-2016 310125837 

08-Jul-2016 299852168 

08-Jul-2016 357765440 


图 1-3 下 载 Anaconda2-2.4.1-Windows-x86. exe 的 界面 
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Anaconda2-2. 4. 1-Windows-x86. exe(32 位 ) 工 具 中 提供 了 Python 作 经 济 金 融 数据 分 
析 的 丰富 资源 : 包括 Pandas, NumPy,SciPy,Statsmodels, Matplotlib 等 一 系列 的 程序 包 以 
及 IPython 交互 环境 。 要 了 解 Python 的 其 他 程序 包 , 可 到 https://anaconda. org 网 站 上 去 
搜索 你 所 需要 的 包 进 行 安装 。 


1.5 数据 分 析 工 具 Python 的 安装 


Python 在 Windows 环境 中 安装 有 很 多 版 本 。 如 : (1) Anaconda2-2. 4. 1-Windows- 
x86. exe(32 位 ) 版 本 ; (2) Anaconda2-2. 4. 1-Windows-x86. exe (64 位 ); (3) 最 新 的 
Anaconda3-4. 1. 1-Windows-x86. exe(32 位 ); (4) Anaconda3-4. 1. 1-Windows-x86_64. exe 
(64 位 )。 本 书 使 用 的 是 Anaconda2-2. 4. 1-Windows-x86. exe(32 位 ) 版 本 。 

双击 下 载 的 Anaconda2-4. 1. 1-Windows-x86 应 用 程序 , 即 可 得 到 如 图 1-4 的 界面 。 


Welcome to the Anaconda2 4.1.1 
(32-bit) Setup Wizard 


This wizard wil guide you through the installation of 
Anaconda2 4.1.1 (324i0). 

Itis recommended that you dose all other applcations 
before starting Setup. This wdl make it possible to update 
relevant system fles without having to reboot your 
computer. 


Chck Next to continue. 


CONTINUUM 


图 1-4 安装 界面 (1) 
在 图 1-4 中 点 击 Next 按钮 ,得 到 如 图 1-5 所 示 的 界面 。 


DD ANACONDA 。 Piease review the cense terms before instaling Anaconda2 4.1.1 
(32b0). 


Press Page Down to see the rest of the agreement. 


and use in source and binary forms, with or without modification, are 
provided that the folowing conditions are met 


If you accept he terms of the agreement, cick 1 Agree to continue. You must accept the 
agreement to instal Anaconda2 4.1.1 (32bit). 


图 1-5 安装 界面 (2) 


@ 经 济 人 金融 数 据 分 析 及 其 Python 应 用 


在 图 1-5 中 点 击 I Agree 按钮 ,得 到 如 图 1-6 所 示 的 界面 。 


” Select Installation Type 
DD ANACONDA please selectthe type ofinstalation you would ike to perform for 
Anaconda2 4.1.1 (32-tit). 


Install for: 


O Al Users (requires admin privieges) 


Continuum Analytics, In 


图 1-6 安装 向 导 
点 击 图 1-6 中 的 Next 按钮 ,得 到 如 图 1-7 所 示 的 界面 。 
i Choose Install Location 
六 ANACONDA choose the folderin which toinstal Anaconda2 4.1.1 (32i0). 


Setup wil install Anaconda2 4.1.1 (32-bit) in the folowing folder. To installin a different 
folder, did Browse and select another folder. Click Next to continue. 


Continuum Analytics, Inc. 


1-7 安装 向 导 


点 击 图 1-7 中 的 Next 按钮 , 即 可 完成 Python 套装 软件 的 安装 ,得 到 如 图 1-8 所 示 的 
界面 。 
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zhushunquan 入 


争 图 


1-8 安装 完 后 界面 


1.6 Python 的 启动 和 退出 


1.6.1 Python 工具 的 启动 

点 击 图 1-8 中 的 Spider 图 标 , 即 可 启动 Python 的 交互 式 用 户 界 面 。 最 后 得 到 如 图 1-9 
所 示 的 界面 。Python 是 按照 问答 的 方式 运行 的 , 即 在 提示 命令 符 “ 二 二 二 ”后 键入 命令 并 回 
车 ,Python 就 完成 一 些 操作 。 


TE 
Re tt 


图 1-9 Python 的 交互 式 用 户 界面 


四 经 济 金 融 数据 分 析 及 其 Python 应 用 


本 书 经 常 使 用 的 是 如 图 1-10 所 示 的 IPython 控制 台 界 面 。 


及 入 男 区 四 人 关 


2 i missione Endofiner clf breoding VE-OSSD ne 中 2" 国 芋 是 太 


图 1-10 ”IPython 的 交互 式 用 户 界面 


1.6.2 Python 的 退出 


在 图 1-9 中 的 符号 “二 二 二 ”后 同时 按 Ctrl 键 与 Q 键 或 点 击 Python 交互 式 用 户 界面 中 
的 “File” 下 的 “Quit” 菜 单 , 即 可 退出 Python 作 经 济 金 融 数 据 分 析 的 交互 式 用 户 界面 。 


1.7 Python 数据 分 析 相 关 的 程序 包 


Python 进行 数据 分 析 时 ,具有 获取 数据 ,整理 数据 模型 计算 、 数 据 图 形 化 等 功能 ,相关 
的 Python 数据 分 析 程 序 包 如 表 1-3 所 示 。 


表 1-3 ”Python 数据 分 析 程 序 包 


程 序 包 简 介 
NumPy 提供 数组 支持 
SciPy 提供 矩阵 支持 ,以 及 矩阵 相关 的 数值 计算 ,优化 和 统计 模块 
Pandas 强大 、 灵 活 的 数据 分 析 和 探索 工具 
Matplotlib 强大 的 数据 可 视 化 工具 、 作 图 库 
StatsModels 统计 建 模 和 计量 经 济 学 ,包括 描述 统计 统计 模型 估计 和 推断 
Scikit-Learn 支持 回归 、 分 类 、 聚 类 等 的 强大 机 器 学 习 库 
Keras 深度 学 习 库 ,用 于 建立 神经 网 络 以 及 深度 学 习 模 型 
Gensim 用 来 做 文本 主题 模型 的 库 ,文本 挖掘 可 能 用 到 
Pillow 涉及 图 片 处 理 
OpenCV 涉及 视频 处 理 


GMPY2 涉及 高 精度 运算 
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Wl) 
1.7.1 Statsmodels 程序 包 加 
加 
表 1-3 的 Statsmodels 程序 包 是 Python 进行 统计 建 模 和 计量 经 济 学 工具 ,提供 一 些 互 
补 SciPy 统计 计算 的 功能 ,包括 描述 性 统计 、 统 计 模型 估计 和 推断 等 。 主 要 功能 特性 如 下 。 
(1) 线性 回归 模型 : 广义 最 小 二 乘法 (generalized least squares)、 普 通 最 小 二 乘法 
(ordinary least squares) 。 
(2) glm: 广义 线性 模型 。 
(3) discrete: 离散 变量 的 回归 ,基于 最 大 似 然 估 计 。 
(4) rlm: 稳健 线性 模型 。 
(5) tsa: 时 间 序 列 分 析 模 型 
(6) nonparametric: 非 参数 估计 。 
(7) datasets: 数据 集合 。 
(8) stats: 常用 统计 检验 。 
(9) iolib: 读 Stata 的 . dta 格式 ,输出 ascii\latex 和 html。 
Statsmodels 程序 包 详细 内 容 参 见 https://github. com/ statsmodels/ statsmodels 主页 。 


1.7.2 Scikit-Learn 程序 包 


表 1-3 的 Scikit-Learn 程序 包 的 功能 如 下 。 

(1) 所 有 模型 提供 的 接口 有 : model. fitO 〇 0 ,训练 模型 ,对 于 监督 模型 来 说 是 fit(X,y) ,对 
于 非 监督 模型 是 fit(X)。 

(2) 监督 模型 提供 的 接口 有 : model. predict(X_new) ,预测 新 样本 ; @model. predict 
_proba(X_new) ,预测 概率 , 仅 对 某 些 监督 模型 有 用 (比如 LR); @model. score() ,得 分 越 
高 ,fit 越 好 。 

(3) 非 监督 模型 提供 的 接口 有 : Dmodel. transform() ,从 数据 中 学 到 新 的 “ 基 空 间 ”; 
@model.fit_transform() ,从 数据 中 学 到 新 的 基 并 将 这 个 数据 按照 这 组 * 基 ”进行 转换 。 


1.7.3 Keras 程序 包 


虽然 Scikit-Learn 足够 强大 ,但 是 它 并 没有 包含 一 种 强大 的 模型 一 -人 工 神经 网 络 。 
在 语言 处 理 、 图 像 识别 等 领域 有 着 重要 的 作用 。 

但 要 注意 的 是 Windows 环境 下 Keras 的 速度 会 大 打折 扣 。 因 此 ,要 研究 神经 网 络 和 深 
度 学 习 方 面 的 内 容 , 需 要 在 Linux 下 搭建 环境 。 


1.8 Python 数据 分 析 快 速 人 门 


1.8.1 数据 导入 


数据 导 和 人 是 很 关键 的 一 步 ,为 了 后 续 的 分 析 ,首先 需 要 导入 数据 。 通 常 来 说 ,数据 一 般 
是 csv 格式 ,就算 不 是 ,至 少 也 可 以 转换 成 csv 格式 。 在 Python 中 ,操作 如 下 : 


import Pandas as pd 
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# 读 取 本 地 数据 

df = pd.read csv('/2glkx/data/al2—1.csv') 

# 读 取 网 上 数据 

import Pandas as pd 

data url = "https://raw. githubusercontent. com/alstat/Analysis - with - Programming/master/ 
2014/Python/Numerical - Descriptions - of - the — Data/data. csv" 

df = pd.read csv(data url) 


为 了 读 取 本 地 csv 文件 ,我 们 需要 Pandas 这 个 数据 分 析 库 中 的 相应 模块 。 其 中 的 read 
_csv 函数 能 够 读 取 本 地 和 web 数据 。 


1.8.2 数据 变换 


有 了 数据 , 接 下 来 就 是 数据 变换 。 统 计 学 家 和 科学 家 们 通常 会 在 这 一 步 移 除 分 析 中 的 
非 必要 数据 。 先 看 看 网 上 读 取 数据 的 前 5 行 和 最 后 5 行 。 操 作 如 下 : 


# Head of the data 
print df. head( ) 

Abra Apayao Benguet Ifugao Kalinga 
0 1243 2934 148 3300 10553 
1 4158 9235 4287 8063 35257 
2 1787 1922 1955 1074 4544 
3 17152 14501 3536 19607 31687 
4 1266 2385 2530 3315 8520 
# Tail of the data 
print df. tail() 

Abra Apayao Benguet Ifugao Kalinga 
74 2505 20878 3519 19737 16513 
75 60303 40065 7062 19422 61808 
76 6311 6756 3561 15910 23349 
77 13345 38902 2583 11096 68663 
78 2623 18264 3745 16787 16900 


对 R 语言 程序 员 来 说 ,上 述 操 作 等 价 于 通过 print(head(df) ) 来 打印 数据 的 前 6 行 ,以 
及 通过 print(tail(df) ) 来 打印 数据 的 后 6 行 。 当 然 Python 中 ,默认 打印 是 5 行 ,而 R 则 是 6 
行 。 因 此 R 的 代码 head(df, n = 10) ,在 Python 中 就 是 df. head(n = 10) ,打印 数据 尾部 
也 是 同样 道理 。 

在 RR 语言 中 ,数据 列 和 行 的 名 字 通 过 colnames 和 rownames 来 分 别 进行 提取 。 在 
Python 中 , 则 使 用 columns 和 index 属性 来 提取 ,操作 如 下 : 


# Extracting column names 

print df. columns 

Index([u'Abra', u'Apayao', u'Benguet', u'Ifugao', u'Kalinga'], dtype = 'object') 
# Extracting row names or the index 

print df. index 

RangeIndex(start = 0, stop=79, step=1) 


数据 转 置 使 用 工 方法 ,操作 如 下 : 


# Transpose data 
print df.T 
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0 1 2 3 4 5 6 7 8 9 \ 
Abra 1243 4158 1787 17152 1266 5576 927 21540 1039 5424 党 
Apayao 2934 9235 1922 14501 2385 7452 1099 17038 1382 10588 © 


Benguet 148 4287 1955 3536 2530 771 2796 2463 2592 1064 
Ifugao 3300 8063 1074 19607 3315 13134 5134 14226 6842 13828 
Kalinga 10553 35257 4544 31687 8520 28252 3106 36238 4973 40140 


69 70 71 72 了 74 5 76 和 

Rbra 12763 2470 59094 6209 13316 2505 60303 6311 13345 
Apayao ... 37625 19532 35126 6335 38613 20878 40065 6756 38902 
Benguet ... 2354 4045 5987 3530 2585 3519 7062 3561 2583 
Ifugao .. 9838 17125 18940 15560 7746 19737 19422 15910 11096 
Kalinga ... 65782 15279 52437 24385 66148 16513 61808 23349 68663 

78 
Abra 2623 


Apayao 18264 
Benguet 3745 
Ifugao 16787 
Kalinga 16900 


[5 rows x 79 columns] 


其 他 变换 ,例如 排序 就 是 用 sort 属性 。 现 在 我 们 提取 特定 的 某 列 数据 。Python 中 ,可 
以 使 用 iloc 或 者 ix 属性, 一般 使 用 ix。 例 如 需 数据 第 一 列 的 前 5 行 ,操作 如 下 : 


print df. ix[ :, 0]. head() 


0 1243 
攻 4158 
a 1787 
3 17152 
4 1266 


Name: Abra, dtype: int64 


要 注意 的 是 ,Python 的 索引 是 从 0 开始 而 非 1。 为 了 取出 从 11 到 20 行 的 前 3 列 数据 ， 
我 们 有 : 


print df. ix[10:20, 0:3] 
Abra Apayao Benguet 
10 981 1311 2560 
11 27366 15093 3039 
12 1100 1701 2382 
13 7212 11001 1088 
14 1048 1427 2847 
15 25679 15661 2942 
16 1055 2191 2119 
17 5437 6461 734 
18 1029 1183 2302 
19 23710 12222 2598 
20 1091 2343 2654 


上 述 命 令 相 当 于 df. ix[10:20, ['Abra', 'Apayao', 'Benguet']]。 
为 了 舍弃 数据 中 的 列 ,如 列 1(Apayao) 和 列 2(Benguet) ,可 使 用 drop 属性 ,操作 如 下 : 
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print df. drop(df. columns[[2, 3]], axis = 1).head() 
Abra Ifugao Kalinga 

1243 3300 10553 

4158 8063 35257 

1787 1074 4544 
17152 19607 31687 

1266 3315 8520 


axis 参数 告诉 函数 到 底 舍 弃 列 还 是 行 。 如 果 axis 等 于 0, 那么 就 舍弃 行 。 
1.8.3 统计 描述 
下 一 步 就 是 通过 describe 属性 ,对 数据 的 统计 特性 进行 描述 : 


print df. describe() 

Abra Apayao Benguet Ifugao Kalinga 
count 79.000000 79.000000 79.000000 79.000000 79.000000 
mean 12874.379747 16860.645570 3237.392405 12414.620253 30446.417722 
std 16746.466945 15448.153794 1588.536429 5034.282019 22245.707692 
min 927.000000 401.000000 148.000000 1074.000000 2346.000000 
25% 1524.000000 3435.500000 2328.000000 8205.000000 8601.500000 
50% 5790.000000 10588.000000 3202.000000 13044.000000 24494.000000 
75% 13330.500000 33289.000000 3918.500000 16099.500000 52510.500000 
max 60303.000000 54625.000000 8813.000000 21031.000000 68663.000000 


1.8.4 假设 检验 


在 Python 中 ,有 一 个 很 好 的 统计 推断 包 , 就 是 SciPy 里 面 的 Stats。ttest_lsamp 实现 
了 单 样 本 1 检验。 因此, 如果 想 检验 数据 Abra 列 的 稻谷 产量 均值 ,通过 零 假 设 , 这 里 我 们 假 
定 总 体 稻谷 产量 均值 为 15000, 我 们 有 : 


wb PP 口 


from SciPy import stats as ss 

# Perform one sample t- test using 1500 as the true mean 

print ss.ttest_lsamp(a = df. ix[:, 'Abra'], popmean = 15000) 

Ttest_lsampResult(statistic = —1.1281738488299586, pvalue = 0.26270472069109496) 

返回 下 述 值 组 成 的 元 组 。 

t: 浮 点 或 数组 类 型 

tf 统计 量 ; 

prob: 浮 点 或 数组 类 型 ; 

two-tailed p-value: 双 侧 概率 值 。 

通过 上 面 的 输出 ,可 以 看 到 p 值 是 0.267, 远 大 于 a( 等 于 0.05), 因 此 没有 充分 的 证 据 
说 平均 稻谷 产量 不 是 15000。 将 这 个 检验 应 用 到 所 有 的 变量 ,同样 假设 均值 为 15000, 我 们 有 : 

print ss. ttest lsamp(a = df, popmean = 15000) 

Ttest_ lsampResult( statistic = array([ - 1. 12817385, 1. 07053437, — 65. 81425599，- 4. 564575, 


6.17156198]),pvalue = array([2. 62704721e - 01, 2. 87680340e — 01, 4. 15643528e — 70, 1. 83764399e — 05, 
2.82461897e- 08])) 


上 述 输出 结果 的 第 一 个 数组 是 t 统计 量 , 第 二 个 数组 则 是 相应 的 p 值 。 


1.8.5 可视化 
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Python 中 有 许多 可 视 化 模块 ,最 流行 的 是 Matpalotlib 库 。 可 选择 功能 更 强 的 seaborn 模块 。 


# Import the module for plotting 
import matplotlib. pyplot as plt 
plt. show(df. plot(kind = 'box')) 


得 到 如 图 1-11 所 示 的 图 形 。 
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图 1-11 盒 型 图 


现在 ,我 们 可 以 用 Pandas 模块 中 集成 R 的 ggplot 主题 来 美化 图 表 。 要 使 用 ggplot, 我 
们 只 需要 在 上 述 代码 中 多 加 一 行 。 


import matplotlib. pyplot as plt 

pd. options. display.mpl_style = 'default’ 

# Sets the plotting display theme to ggplot2 
df.plot(kind = 'box') 


这 样 我 们 就 得 到 如 图 1-12 所 示 的 图 形 。 
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国 。。 林 风 tt Matplouib. pyplot 主题 简 清太 多 。 下 面 再 引入 功能 更 强大 的 seaborn 模块 ,该 
9 ”模块 是 一 个 统计 数据 可 视 化 库 。 因 此 我 们 有 : 

# Import the seaborn library 

import seaborn as sns 

# Do the boxplot 

plt. show( sns. boxplot (df)) 

可 得 到 如 图 1-13 所 示 的 图 形 。 
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1.8.6 创建 自 定义 函数 


在 Python 中 ,我 们 使 用 def 函数 来 实现 一 个 自 定义 函数 。 例 如 ,如 果 我 们 要 定义 一 
两 数 相 加 的 函数 ,如 下 即 可 。 
def add 2int(x, y): 
returnx+y 


print add 2int(2, 2) 
4 


练 习 题 


1. 简 述 经 济 金融 数据 的 类 型 .来 源 。 

2. 简 述 经 济 金融 数据 分 析 的 常用 工具 。 

3. Python 与 R、Stata、Matlab、SAS、SPSS、EViews 等 数据 分 析 工 具有 何 区 别 ? 

4. 在 网 址 : https://mirrors. tuna. tsinghua. edu. cn/help/anaconda/ 下 载 最 新 Python 
工具 到 你 指定 的 目录 ,并 安装 到 你 指定 的 目录 ,并 启动 Python 软件 ,然后 退出 。 


Python 数据 分 析 程 序 包 应 用 基础 


一 
草 


Python 发 展 至 今 ,已 经 有 越 来 越 多 的 人 使 用 Python 进行 科技 研究 , NumPy、 SciPy、 
Pandas 程序 包 是 Python 最 重要 的 三 个 高 性 能 数据 分 析 和 科学 计算 的 基础 包 。 因 此 ,本 章 
对 这 三 个 包 应 用 基础 先 做 一 个 简单 介绍 。 


2.1 Python 数据 分 析 的 NumPy 应 用 基础 


2.1.1 数组 (ndarray) 


ndarray( 以 下 简称 数组 ) 是 NumPy 的 数组 对 象 ,需要 注意 的 是 , 它 是 同 构 的 ,也 就 是 说 ， 
其 中 的 所 有 元 素 必须 是 相同 的 类 型 。 其 中 ,每 个 数组 都 有 一 个 shape 和 dtype。 
shape 是 数组 的 形状 ,例如 : 


import NumPY as np 

from NumPY. random import randn 

arr = randn(12).reshape(3，4) 

arr 

Out[1]: 

array([[ 0.34640208, -0.99242853, -0.56409477, 0.93549739], 
[~ 0.58249952，- 0.70841307， 0.56573421, -0.09397698], 
[ -0.17211688，- 0.99705251， 0.22227907, 1.41410709]]) 

arr. shape 

Out[2]: (3, 4) 


其 中 (3, 4) 即 代表 arr 是 3 行 4 列 的 数组 ,其 中 dtype 为 float64。 
表 2-1 中 的 函数 可 以 用 来 创建 数组 。 


表 2-1 创建 数组 的 函数 


函数 名 称 作 用 
array 将 输入 数据 转换 为 ndarray, 类 型 可 制定 也 可 默认 
asarray 将 输入 转换 为 ndarray 
arange 类 似 内 置 range 
ones .ones_like 根据 形状 创建 一 个 全 1 的 数组 .后 者 可 以 复制 其 他 数组 的 形状 
zeros ,zeros_like 类 似 上 面 ,全 0 
empty\empty_like 创建 新 数组 、 只 分 配 空间 
eye,identity 创建 对 角 线 为 1 的 对 角 和 矩阵 
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2.1.2 数组 的 转 置 和 轴 对 称 


转 置 是 多 维 数组 的 基本 运算 之 一 。 可 以 使 用 . 工 属性 或 者 transpose() 来 实现 .. 工 就 是 
进行 轴 对 换 , 而 transpose 则 可 以 接收 参数 进行 更 丰富 的 变换 。 


arr = np.arange(6).reshape((2,3)) 
print arr 
[[012] 
345]] 


print arr.T 

[[0 3] 

1 4] 

2 5]] 

arr = np.arange(24). reshape( (2,3,4)) 
print arr 

[It0 4 名 人 

4 56 7] 

8 9 10 11]] 


[12 13 14 15] 
16 17 18 19] 
20 21 22 23]]] 
print arr. transpose( (0,1,2)) 
[0 和 间 
4 5 6 7] 
8 9 10 11]] 


[12 13 14 15] 
16 17 18 19] 
20 21 22 23]]] 


2.1.3 数组 的 运算 
大 小 相等 的 数组 之 间 做 任何 算术 运算 都 会 将 运算 应 用 到 元 素 级 别 。 


arr = np.arange(9).reshape(3, 3) 
Print arr 
[012] 
[345] 
[678]] 


print arr * arr 
[01 4] 
[ 9 16 25] 
[36 49 64]] 


print arr + arr 
[0 .2 
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[6 810] 
[12 14 16]] 


print arr * 4 


[[0 4 8] 
[12 16 20] 
[24 28 32]] 
在 NumPy 的 简单 计算 中 ,ufunc 通用 函数 是 对 数组 中 的 数据 执行 元 素 级 运算 的 函数 。 
例如 : 
arr = np.arange(6).reshape( (2,3)) 
print arr 
[[012] 
[345]] 
print np. square(arr) 
[[0 1 4] 
[9 16 25]] 
类 似 的 函数 还 有 : 
abs,fabs, sqrt, square, exp, log, sign, ceil, floor, rint, modf, isnan, isfinite, isinf, cos， 


cosh, sin, sinh,tan,tanh,add,subtract, multiply, power, mod,equal, 等 等 。 


2.2 Python 数据 分 析 的 SciPy 应 用 基础 


SciPy 以 NumPy 为 基础 ,提供 了 应 用 更 加 广泛 的 科学 计算 工具 。 它 有 着 优秀 的 函数 
库 , 主 要 包括 : 

(1) 线性 代数 ; 

(2) 数值 积分 ; 

(3) 插值 ; 

(4) 优化 ; 

(5) 随机 数 生 成 ; 

(6) 信和 号 处 理 ; 

(7) 图 像 处 理 ; 

(8) 其 他 。 

与 NumPy 一 样 ,SciPy 有 着 稳定 .成熟 .应 用 广泛 的 数值 运算 库 。 许 多 SciPy 函数 仅仅 
是 给 诸如 LAPACK、BLAS 这 样 的 Fortran 数值 计算 工业 标准 库 提 供 了 接口 。 在 本 书 中 , 仅 
仅 讨论 一 些 常 用 基础 的 函数 和 特性 ,不 做 深入 讨论 。 


2.2.1 SciPy 与 NumPy 


由 于 SciPy 以 NumPy 为 基础 ,那么 import SciPy 的 同时 便 import 了 NumPy 库 。 
所 以 ,我 们 经 常 在 SciPy 函数 的 初始 化 文件 中 看 到 如 下 代码 : 


from NumPY import * 
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过 from NumPY. random import rand, randn 
量 from Numpy. fft import fft, ifft 
和 from NumPY. lib. scimath import * 

del linalg 

SciPy 的 函数 主要 位 于 以 下 子 库 中 : 


SciPy. optimize SciPy. integrate SciPy. stats 
所 以 这 些 子 库 需要 分 别 import, 比 如 : 


import SciPy. optimize 
from SciPy. integrate import quad 


尽管 SciPy 已 经 import 了 NumPy, 但 是 标准 的 数值 计算 程序 经 常 这 样 引用 NumPy: 


import NumPY as np 


2.2.2 统计 子 库 SciPy. stats 


SciPy. stats 的 主要 功能 有 以 下 几 方 面 : 

(1) 数值 随机 变量 对 象 ( 包 括 密度 分 布 函数 ,累积 分 布 函数 ,样本 函数 等 ); 
(2) 一 些 估 计 方 法 ; 

(3) 一 些 测试 方法 。 


1. 随机 变量 与 分 布 
考虑 beta 函数 ,NumPy 中 提供 了 获取 随机 变量 的 样本 的 方法 : 


import NumPY as np 
np. random. beta(5, 5, size= 3) 
Out[28]: array([ 0.40989776, 0.55822037, 0.33350581]) 


只 不 过 np. random. beta(a,b) 是 根据 下 面 函 数 得 到 的 : 


el1(1 el 
fsb = He 


(l= du 
为 了 获取 更 多 beta 分 布 的 特性 ,我 们 经 常 需要 使 用 SciPy. stats。 


import NumPy as np 

from SciPy. stats import beta 

from matplotlib. pyplot import hist, plot, show 

q = beta(5, 5) # Beta(a, b), witha = b = 5 gq 是 一 个 对 象 
obs = q.rvs(2000) # 2000 observations 获得 2000 个 样本 
hist(obs, bins = 40, normed = True) 

grid = np.linspace(0.01, 0.99, 100) 

plot(grid, q.pdf(grid), 'k—', linewidth= 2) 

show( ) 


执行 上 面 命令 后 ,可 以 得 到 如 图 2-1 所 示 的 图 形 。 
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图 2-1 随机 分 布 图 


继续 输入 如 下 命令 : 


q.cdf(0.4) 并 Cumulative distribution function 累积 密度 函数 
Out[31]: 0.26656768000000003 


q. pdf(0.4) # Density function 密度 函数 
Out[32]: 2.0901888000000013 


q. ppf(0.8) # Quantile (inverse cdf) function 
Out[33]: 0.63391348346427079 


q. mean() 
Out[34]: 0.5 


通用 的 用 于 创建 随机 变量 对 象 的 语法 为 : 


identifier = SciPy. stats.distribution_name(shape_parameters) 


distributon_name 可 以 在 http://docs. SciPy. org/doc/SciPy/reference/stats. html 中 
找到 。 
distributon_name 有 两 个 关键 参数 loc 和 scale。 


identifier = SciPy. stats. distribution name(shape_parameters, 'loc=¢c', 'scale=d') 


这 是 用 来 做 线性 变换 ,产生 的 Y,Y 一 c+dxX。 
这 里 还 有 另 一 种 方法 生成 与 上 一 种 方法 一 样 的 随机 变量 ,命令 如 下 : 


import NumPy as np 

from SciPy. stats import beta 

from matplotlib. pyplot import hist, plot, show 

obs = beta.rvs(5, 5, size= 2000) # 2000 observations 
hist(obs, bins = 40, normed = True) 

grid = np.linspace(0.01, 0.99, 100) 

plot(grid, beta. pdf(grid, 5, 5), 'k—', linewidth=2) 
show( ) 


执行 上 面 命令 后 ,可 以 得 到 如 图 2-2 所 示 的 图 形 。 
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图 2-2 随机 分 布 图 


2. 线性 回归 


from SciPy. stats import linregress 

x = np.random. randn(200) 

Y=2* x+ 0.1* np.random.randn(200) 

gradient, intercept, r_value, p_value, std err = linregress(x, y) 
gradient, intercept 

Out[36]: (1.99693537420583, -0.0038124974324087318) 


3. 求 根 与 稳定 点 
(1) 稳定 点 
已 知 连续 函数 f(z) , 则 函数 f(x) 的 稳定 点 为 zo ,使 得 条 件 f(zxo) 二 zxo 成 立 。 例 如 以 
下 函数 f(x): 
f(z) = sin(4(z 十) 十 za 一 1 
(2) 一 元 函数 求 根 


如 果 我 们 要 求 方程 f(x) 二 0 的 根 的 话 ,可 以 利用 SciPy. optimize 的 二 分 法 bisect。 命 
令 如 下 : 

from SciPy. optimize import bisect 

f = lambda x: np.sin(4 * (x 一 0.25)) + x + x*x *20—1 

bisect(f, 0, 1) 

Out[37]: 0.4082935042797544 

当然 ,在 数值 分 析 中 还 有 一 种 常用 方法 Newton-Raphson 算法 。 这 一 方法 利用 函数 曲 
线 的 切线 逐渐 逼近 零点 。 如 果 函 数 的 形态 很 好 ,那么 此 方法 比 bisect 更 快 。 如 果 函 数 的 形 
态 不 好 ,那么 它 比 bisect 慢 。 这 主要 是 由 于 此 方法 依赖 于 求 导 运算 。 

在 实际 求 根 过 程 中 ,常常 采用 混合 方法 , 先 用 一 种 方法 求解 ,如 果 速 度 不 快 , 则 寻找 另外 
更 好 的 方法 ,加 速 求解 。 

在 SciPy 中 ,混合 方法 是 brentq: 


from SciPy. optimize import brentq 
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brentq(f, 0, 1) 
Out[38]: 0.40829350427936706 


timeit brentq(£, 0, 1) 

10000 loops, best of 3: 51.1 js per loop 

(2) 多 元 函数 求 根 问题 

常常 采用 SciPy. optimize. fsolve: 一 个 MinPACK 库 接 口 。 详 细 可 参见 : 

http://docs. SciPy. org/doc/SciPy/reference/generated/SciPy. optimize. fsolve. html 
网 站 上 的 内 容 。 

(3) 稳定 点 求解 

输入 如 下 命令 : 

from SciPy. optimize import fixed point 


fixed point(lambda x: xx x*2, 10.0) # 10.0 is an initial guess 
Out[40]: array(1.0) 


fixed_point 函数 仅 限 于 一 元 函数 稳定 点 问题 ,因为 它 仅仅 是 调用 了 brentq 函数 。 
4. 优化 问题 

(1) 一 元 函数 最 小 与 最 大 值 

一 元 函数 最 小 与 最 大 值 实例 可 以 通过 如 下 命令 来 说 明 : 


from SciPpy. optimize import fminbound 

fminbound(lambda x: xx *2, -1, 2) # Search in[-1, 2] 
Out[41]: 0.0 

(2) 多 元 函数 最 小 与 最 大 值 

多 元 函数 局 部 优化 : 有 以 下 几 个 函数 : 


minimize, fmin, fmin powell, fmin cg, fmin bfgs，and fmin ncg。 

多 元 函数 受 限 局 部 优化 : fmin_L_bfgs_b, fmin_tnc, fmin_cobyla。 

由 于 涉及 更 多 的 搜索 算法 等 数学 知识 就 不 详细 介绍 了 。 上 有 具体 问题 请 到 官网 http:// 
docs. SciPy. org/ doc/ SciPy/reference/optimize. html 查询 。 

5. 积分 

单 变量 积分 可 以 利用 quad 方法 实现 ,实例 的 命令 如 下 : 


from SciPy. integrate import quad 

integral, error = quad(lambda x: x* *2, 0, 1) 

integral 

Out[45] : 0.33333333333333337 

quad 方法 是 依靠 gauss-chebyshev 求 积 公式 , 切 比 雪夫 多 项 式 参 见 : 
http://en. wikipedia. org/wiki/Clenshaw % E2% 80%93Curtis_quadrature 
多 元 函数 积分 ,固定 误差 积分 等 可 以 参见 : 

http://docs. SciPy. org/doc/SciPy/reference/integrate. html 
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【7 6. 图 像 操作 


EE 


SciPy 的 imread 可 以 将 图 像 导 入 NumPy 数组 。 命令 如 下 : 


from SciPy. misc import imread, imsave, imresize 

# Read an JPEG image into a NumPy array 

img = imread('assets/cat. jpg') 

print img. dtype, img.shape # Prints "uint8 (400, 248, 3)" 


从 img. shape 可 以 看 出 img 数组 是 三 维 array ,依次 是 红 、 绿 、 蓝 。 千 万 不 要 以 为 图 像 数 
组 是 2 维 数组 。 


img tinted = img * [1, 0.95, 0.9] 


将 图 像 数 组 分 别 乘 以 列表 [1,0. 95,0. 9] ,表示 红色 矩阵 数值 不 变 , 绿 色 、 蓝 色 和 矩阵 数值 
分 别 降 为 原来 的 0.95 倍 .0.9 倍 。 


img tinted = imresize(img tinted, (300, 300)) 


将 原来 的 array 改变 为 正方 形 300 * 300pixels。 
彻 彻底 底 变 成 了 “ 矮 猫 ”。 
现在 保存 图 像 ,命令 如 下 : 


imsave( 'assets/cat_tinted. jpg', img_tinted) 


7. 计算 两 点 间距 离 
先 创建 三 个 点 : 
x = np.array([[0, 1], [1, 0], [2, 0]]) 


[0,1],[1,0],[2,0] 分 别 代表 三 个 点 。 
这 里 的 两 点 间距 离 用 欧 几 里 得 空间 的 距离 表示 。 命 令 如 下 : 


from SciPYy. spatial. distance import pdist, squareform 
d = squareform(pdist(x, 'euclidean')) 


d 

得 到 实 对 称 和 矩阵 如 下 : 

Out[51]: 

array([[ 0. ， 1.41421356, 2.23606798], 
[ 1.41421356, 0. Po J], 
[ 2.23606798, 1. wi ]]) 


而 SciPy. spatial. distance. cdist(A,B,'euclidean') 计 算 的 是 两 个 array 间 各 个 点 的 欧 几 里 得 
距离 。 


8. 线性 规划 
考虑 如 下 的 线性 规划 问题 : 
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Minimize: £ = —1xx[0] + 4x*x[1] 
Subject to: ~—3x*x[0] + 1*x[1] <= 6 
1xx[0] + 2x*x[1]<= 4 

x[1]>= -3 

-co<= x[0] <= ~ 


对 于 上 述 线性 规划 问题 ,输入 如 下 Python 代码 ; 


c= [-1,4] 
A= [[-3,1], [1,2]] 
b = [6, 4] 


x0_bounds = (None, None) 

xl_bounds = (一 3，None) 

from SciPy. optimize import linprog 

res = linprog(c, A ub=A, b ub=b, bounds= (x0_bounds，xl_bounds)， 
options = {"disp": True}) 

print(res) 


得 到 如 下 结果 : 


Optimization terminated successfully. 
Current function value: - 22.000000 
Iterations: 1 


fun: 一 22.0 
message: 'Optimization terminated successful1Yy. 
ait: 1 
slack: array([ 39., 0.]) 
status: 0 


success: True 
二 oggf[ 10s， = 


2.3 Python 数据 分 析 的 Pandas 应 用 基础 


Python Data Analysis Library 或 Pandas 是 Python 的 一 个 数据 分 析 包 ,最 初 由 AQR 
Capital Management 于 2008 年 4 月 开发 ,并 于 2009 年 底 开源 出 来 ,目前 由 专注 于 Python 
数据 包 开 发 的 PyData 开发 团队 继续 开发 和 维护 ,属于 PyData 项 目的 一 部 分 。 

Pandas 最 初 是 被 作为 金融 数据 分 析 工 具 而 开发 出 来 ,因此 ,Pandas 为 时 间 序 列 分 析 提 
供 了 很 好 的 支持 。Pandas 的 名 称 来 自 于 面板 数据 (panel data) 和 Python 数据 分 析 (data 
analysis) 。 面 板 数据 (panel data) 是 经 济 学 中 关于 多 维 数据 集 的 一 个 术语 ,在 Pandas 中 也 
提供 了 panel 的 数据 类 型 。 

Pandas 是 基于 NumPy 的 一 种 工具 ,该 工具 是 为 解决 数据 分 析 任 务 而 创建 的 。Pandas 
纳入 了 大 量 库 和 一 些 标准 的 数据 模型 ,提供 了 高 效 地 操作 大 型 数据 集 所 需 的 工具 。Pandas 
提供 了 大 量 能 使 我 们 快速 便捷 地 处 理 数 据 的 函数 和 方法 ,从 而 使 Python 成 为 强大 而 高 效 
的 数据 分 析 环 境 的 重要 因素 之 一 。 


2.3.1 Pandas 中 的 数据 结构 
Pandas 是 基于 NumPy 构建 的 含有 更 高 级 数据 结构 和 工具 的 数据 分 析 包 ,Pandas 围绕 
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Series 和 DataFrame 两 个 核心 数据 结构 展开 。Series 和 DataFrame 分 别 对 应 于 一 维 的 序列 
和 二 维 的 表 结 构 。 

(1) Series: 一 维 数组 ,与 NumPy 中 的 一 维 数组 array 类 似 。 二 者 与 Python 基本 的 数 
据 结 构 list 也 很 相近 ,其 区 别 是 : list 中 的 元 素 可 以 是 不 同 的 数据 类 型 ,而 Array 和 Series 
中 则 只 允许 存储 相同 的 数据 类 型 ,这样 可 以 更 有 效 地 使 用 内 存 ,提高 运算 效率 。 

(2) Time-Series: 以 时 间 为 索引 的 Series。 

(3) DataFrame: 二 维 的 表格 型 数据 结构 。 很 多 功能 与 R 中 的 data. frame 类 似 。 可 以 
将 DataFrame 理解 为 Series 的 容器 。 下 面 的 内 容 主 要 以 DataFrame 为 主 。 

(4) Panel: 三 维 的 数组 ,可 以 理解 为 DataFrame 的 容器 。 

Pandas 约定 俗 成 的 导入 方法 如 下 : 


from Pandas import Series, DataFrame 
import Pandas as pd 


1. 一 维 数组 Series 对 象 


Series 可 以 看 做 一 个 定 长 的 有 序 字典 。 基 本 任意 的 一 维 数据 都 可 以 用 来 构造 Series 
对 象 : 

s = pd,Series([1,2,3.0,'abc']) 

S 

Qut[6]: 

0 1 
2 

2 FE 

3 abc 

dtype: object 

虽然 dtype: object 可 以 包含 多 种 基本 数据 类 型 ,但 总 感觉 会 影响 性 能 的 样子 ,最 好 还 
是 保持 单纯 的 dtype。 

Series 对 象 包含 两 个 主要 的 属性 : index 和 values ,分别 为 上 例 中 左右 两 列 。 因 为 传 给 
构造 器 的 是 一 个 列表 ,所 以 index 的 值 是 从 0 起 递增 的 整数 ,如 果 传 人 的 是 一 个 类 字典 的 键 
值 对 结构 ,就 会 生成 index-value 对 应 的 Series; 或 者 在 初始 化 的 时 候 以 关键 字 参 数 显 式 指 
定 一 个 index 对 象 ; 


s = pd.Series(data= [1,3,5,7],index = ['a','b', 'x', 'y']) 


Out[9]: Index([u'a', u'b', u'x', u'y'], dtype = 'object') 
s.values 
Out[10]: array([1, 3, 5, 7], dtype = int64) 
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Series 对 象 的 元 素 会 严格 依照 给 出 的 index 构建 ,这 意味 着 : 如 果 data 参数 是 有 键 值 
对 的 ,那么 只 有 index 中 含有 的 键 会 被 使 用 ; 以 及 如 果 data 中 缺少 响应 的 键 ,即使 给 出 NaN 
值 ,这 个 键 也 会 被 添加 。 
注意 Series 的 index 和 values 的 元 素 之 间 虽 然 存在 对 应 关系 ,但 这 与 字典 的 映射 不 同 。 
index 和 values 实际 仍 为 互相 独立 的 ndarray 数组 。Series 这 种 使 用 键 值 对 的 数据 结构 最 
大 的 好 处 在 于 , Series 间 进 行 算术 运算 时 ,index 会 自动 对 齐 。 另 外 ,Series 对 象 和 它 的 
index 都 含有 一 个 name 属性 : 


s.name = 'a_ series' 

Ss. index. name = 'the_index' 
S 

Out[13]: 

the_index 

a 1 

b 3 
x 3 
y Eg 
Name: a_series, dtype: int64 


2. 二 维 表 DataFrame 对 象 


DataFrame 是 一 个 表格 型 的 数据 结构 , 它 含 有 一 组 有 序 的 列 ( 类 似 于 index) ,每 列 可 以 
是 不 同 的 值 类 型 (在 NumPy 的 数组 中 ndarray 只 能 有 一 个 数据 类 型 dtype) 。 基 本 上 可 以 把 
DataFrame 看 成 是 共享 同一 个 index 的 Series 的 集合 。 
DataFrame 的 构造 方法 与 Series 类 似 ,只 不 过 可 以 同时 接受 多 条 一 维 数据 源 ,每 一 条 都 
会 成 为 单独 的 一 列 : 
data = {'state':['GZ', 'GZ", 'GZ', 'CS', 'CS'], 
'year':[2014, 2015, 2016, 2015, 2016], 


‘pop':[1.5,1.7,3.6,2.4,2.9]} 
df = DataFrame(data) 


df 

Out[16]: 

pop state year 
0 4.5 GZ 2014 
1 4.7 Gz 2015 
2 3.6 Gz 2016 
3 2.4 CS 2015 
4 2.9 CS 2016 


虽然 参数 data 看 起 来 是 个 字典 ,但 字典 的 键 并 非 充当 DataFrame 的 index 的 角色 ,而 
是 Series 的 “name” 属 性 。 这 里 生成 的 index 仍 是 “01234”。 较 完整 的 DataFrame 构造 器 参 
数 为 : DataFrame(data 王 None,index 一 None,columns 一 None) ,columns 即 “name”: 
df = DataFrame(data, index = ['one', 'two', 'three', 'four', 'five’], 
columns = [ 'year', 'state', 'pop', 'debt']) 
df 
Out[18]: 
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year state pop debt 
one 2014 GZ 1.5 NaN 
two 2015 GZ 1.7 NaN 
three 2016 GZ 3.6 NaN 
four 2015 CS 2.4 NaN 
five 2016 Cs 2.9 NaN 


从 上 可 以 看 出 ,缺失 值 由 NaN 补 上 。 
下 面 看 一 下 index,columns 和 索引 的 类 型 : 


df. index 

Out[19]: Index([u'one', u'two', u'three', u'four', u'five'], dtype = 'object') 
df. columns 

Out[20]: Index([u'year', u'state', u'pop', u'debt'], dtype = 'object') 

type( df[ 'debt']) 

Out[21]: Pandas. core. series. Series 


DataFrame 面向 行 和 面向 列 的 操作 基本 是 平衡 的 ,任意 抽出 一 列 都 是 Series。 
2.3.2 对 象 的 重新 索引 


1. Series 对 象 的 重新 索引 


Series 对 象 的 重新 索引 通过 其 . reindex(index 一 None, ** kwargs) 方 法 实现 。 **x kwargs 中 
常用 的 参数 有 两 个 : method 二 None,fill_value 二 np. NaN。 


ser = Series([4.5,7.2, -5.3,3.6],index=['d', 'b','a', 'c']) 


a= ['a','b','c','d','e'] 
ser. reindex(a) 

Out[24]: 

a -5.3 

b 7.2 

c 3.6 

d 4.5 

e NaN 


dtype: float64 

ser. reindex(a, fill value = 0) 
Out[25]: 

a -5.3 

b 7.2 

c 3.6 

d 4.5 

e 0.0 

dtype: float64 

ser. reindex(a, method = 'ffill') 


和 一 5.3 
b 1 
c 3.6 
d 4.5 
e 4.5 


dtype: float64 
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ser. reindex(a, fill value= 0,method= 'ffill') bond 
a -5.3 © 

2 和 

c 3.6 

d 5 

e 4.5 


dtype: float64 


.reindex() 方 法 会 返回 一 个 新 对 象 , 其 index 严格 遵循 给 出 的 参数 ,method:{'backfill'， 
'bfill'，'pad'，'ffill', None} 参 数 用 于 指定 插值 (填充 ) 方 式 , 当 没有 给 出 时 ,自动 用 fill_value 
填充 ,默认 为 NaN(ffill == pad,bfill = back fill, 分 别 指 插值 时 向 前 还 是 向 后 取 值 ) 。 


2. DataFrame 对 象 的 重新 索引 方法 


DataFrame 对 象 的 重新 索引 方法 : . reindex(index 二 None, columns 二 None, x*x* kwargs)。 
仅 比 Series 多 了 一 个 可 选 的 columns 参数 ,用 于 给 列 索引 。 用 法 与 上 例 类 似 , 只 不 过 插值 方 
法 method 参数 只 能 应 用 于 行 , 即 轴 0。 


data = {'T':[1,4,7], 
'U':[0,0,0], 
'C':[2,5,8]} 
df = DataFrame(data, index= ['a', 'c', 'd']) 


TU 

a210 
4 0 
7 0 

state =['T', 'U','C'] 

df. reindex( index = ['a', 'b', 'c', 'd'], columns = state, method = 'ffill') 


Out[36]: 
TU 


A 
口 


PoD 避风 
- ” 

口 oo 
oo wm Nb no 


2.3.3 删除 指定 轴 上 的 项 


删除 指定 轴 上 的 项 , 即 删除 Series 的 元 素 或 DataFrame 的 某 一 行 ( 列 ) 的 意思 ,通过 对 
象 的 . drop(labels, axis 二 0) 方 法 。 

Series 的 数据 对 象 如 下 : 

ser 


Out[38]: 
d 4.5 
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dtype: float64 
9 DataFrame 的 数据 对 象 如 下 : 


df 
Out[39]: 
© T 
a 2 
区 尝 
d 8 


删除 ser 对 象 的 c 行 : 


oooda 


% 
4 
kd 


ser. drop( 'c') 
Out[40]: 

d 4.5 

b 7.2 

很 ”= 二 .3 
dtype: float64 
df 


删除 df 对 象 的 a 行 : 


df. drop( 'a') 
Out[41]: 

C TU 
cC5 4 0 
d87 0 


删除 df 对 象 的 工 列 和 TU 列 : 


df.drop(['T', 'U'],axis= 1) 
Out[48] : 
C 


oang 
oun 


. drop() 返 回 的 是 一 个 新 对 象 , 原 对 象 不 会 被 改变 。 
2.3.4 索引 和 切片 


Pandas 支持 通过 obj[ : :] 的 方式 进行 索引 和 切片 ,以 及 通过 布尔 型 数组 进行 过 滤 。 不 
过 需要 注意 ,因为 Pandas 对 象 的 index 不 限于 整数 ,所 以 当 使 用 非 整数 作为 切片 索引 时 , 它 


是 末端 包含 的 。 
foo = pd.Series([4.5,7.2, -5.3,3.6] ,index= ['a', 'b', 'c', 'd']) 
Out[52]: 

a 4.5 
b 和 
e 一 5.3 
d 3.6 


dtype: float64 
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bar = pd. Series([4.5,7.2, -5.3,3.6]) 


Out[55]: 
0 4.5 
L 了 .2 
2 一 各: 
3 3.6 


dtype: float64 
删除 foo 第 3,4 行 : 


foo[ :2] 
out[56] : 

a 4.5 

b 7.2 
dtype: float64 


删除 bar 第 3,4 行 : 


bar[ :2] 
Out[57]: 

0 4.5 

和 7,2 
dtype: float64 
foo[ :'c'] 
Out[58]: 

a 4.5 

b TT 

c -5.3 
dtype: float64 


这 里 foo 和 bar 只 有 index 不 同 ,bar 的 index 是 整数 序列 。 可 见 当 使 用 整数 索引 切片 


时 ,结果 与 Python 列表 或 NumPy 的 默认 状况 相同 ; 换 成 'c' 这 样 的 字符 串 索引 时 ,结果 就 包 
含 了 这 个 边界 元 素 。 


另外 一 个 特别 之 处 在 于 DataFrame 对 象 的 索引 方式 ,因为 它 有 两 个 轴 向 (双重 索引 ) 。 


可 以 这 么 理解 : DataFrame 对 象 的 标准 切片 语法 为 : .ix[::,::]。 
套 切 片 ,分 别 为 行 (axis=0) 和 列 (axis 王 1) 的 方向 。 


df 
Out[61]: 
C 了 T 
a 2 
G 5 
d 8 


吉 二 盏 :总 


. 
4 
7 


df. ix[ :2, :2] 
Out[62]: 
人 法 

a 2 1 

c 5 4 

[| 

out[63]: 0 


ix 对 象 可 以 接受 两 
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p 而 不 使 用 ix ,直接 切 的 情况 就 特殊 了 : (1) 索 引 时 ,选取 的 是 列 ; (2) 切 片 时 ,选取 的 
@ ”是 行 。 
df[ '0'] 

Out[65]: 

a 0 
Ce 0 
d 0 

Name: U, dtype: int64 
df[:'c'] 
Out[66]: 
C TU 
和 了 斌 人才 
必 ) -和 本 二 
df[ :2] 
Out[67]: 
C TU 


和 和 
BS 兴 
使 用 布尔 型 数组 的 情况 ,注意 行 与 列 的 不 同 切 法 ( 列 切 法 的 *:” 不 能 省 ): 


df['T']>=4 
Out[68] : 
a False 
c True 
d True 
Name: T, dtype: bool 
df[df[ 'T']>= 4] 
Out[69]: 

C T 0 
-| 
87 0 
df. ix[:,df. ix['c']>= 4] 
Out[70]: 

C T 
a 2 1 
避 ， 二 汐 
d 8 7 


2.3.5 算术 运算 和 数据 对 齐 


Pandas 最 重要 的 一 个 功能 是 , 它 可 以 对 不 同 索引 的 对 象 进行 算术 运算 。 在 将 对 象 相 加 
时 ,结果 的 索引 取 索 引 对 的 并 集 。 自 动 的 数据 对 齐 在 不 重 麦 的 索引 处 引入 空 值 ,默认 
为 NaN。 

foo = Series({'a':1,"b':2}) 

foo 

Out[72]: 

a 1 
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b 2 

dtype: int64 
bar = Series({'b':3,'d':4}) 
bar 

Out[74]: 

b 

d 4 

dtype: int64 
foo + bar 
Out[75]: 

a NaN 

b 3 办 

d NaN 
dtype: float64 


DataFrame 的 对 齐 操 作 会 同时 发 生 在 行 和 列 上 。 当 不 希望 在 运算 结果 中 出 现 NA 值 
时 ,可 以 使 用 前 面 reindex 中 提 到 过 的 fill_value 参数 ,不 过 为 了 传递 这 个 参数 ,就 需要 使 用 
对 象 的 方法 ,而 不 是 操作 符 : dfl. add(df2,fill_value 二 0)。 其 他 算术 方法 还 有 : sub(),div()， 


mul() 。 


Series 和 DataFrame 之 间 的 算术 运算 涉及 广泛 ,这 里 不 讲 。 


2.3.6 函数 应 用 和 了 映射 


NumPy 的 ufuncs( 元 素 级 数组 方法 ) 可 用 于 操作 Pandas 对 象 。 当 希望 将 函数 应 用 到 
DataFrame 对 象 的 某 一 行 或 列 时 ,可 以 使 用 . apply(Cfunc，axis 一 0，args 一 ()，#xx kwds) 


方法 。 


f = lambda x:x.max()— x.min() 


df 

Out[77]: 
C T 

下 过 时 

呈 - 二 

d87 0 

df.apply(£) 

Out[78]: 

C 6 

T 6 

U 0 

dtype: int64 

df.apply(f,axis=1) 

Out[79]: 

a 2 

c 5 

d 8 

dtype: int64 


2.3.7 排序 和 排名 


ooa 


Series 的 sort_index(ascending 二 True) 方 法 可 以 对 index 进行 排序 操作 ,ascending 参 
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数 用 于 控制 升序 或 降序 ,默认 为 升序 。 

若 要 按 值 对 Series 进行 排序 , 当 使 用 . order() 方 法 ,任何 缺失 值 默认 都 会 被 放 到 Series 
的 末尾 。 

在 DataFrame 上 ,. sort_index(axis 二 0, by 二 None, ascending 王 True) 方 法 多 了 一 个 轴 
向 的 选择 参数 与 一 个 by 参数 ,by 参数 的 作用 是 针对 某 一 ( 些 ) 列 进行 排序 (不 能 对 行使 用 
by 参数 ) : 

df. sort_index(by= 'U') 


Out[80] : 
于 


oanp 
oa w Nb 
TA 
总 区 人 


df. sort_index(by=[{['C', 'T']) 
Out[81]: 
心 字 
aa 2 1 
c 5 4 
d 8 7 
df. sort_index(axis=1) 
CT 0U 


oooa 


-3 
oun 
Tp 
B® © 


排名 (Series. rank(method 二 'average', ascending 王 True) ) 的 作用 与 排序 的 不 同 之 处 在 
于 : 排名 会 把 对 象 的 values 替换 成 名 次 (从 1 到 n)。 这 时 唯一 的 问题 在 于 如 何 处 理 平 级 
项 ,方法 里 的 method 参数 就 是 起 这 个 作用 的 , 它 有 4 个 值 可 选 : average, min, max， first。 


ser = Series([3,2,0,3], index = list('abcd')) 
ser 


Out[84]: 
a 3 

b 和 

c 0 

d 3 
dtype: int64 
ser. rank() 
Out[85]: 
a 3.5 
b 2.0 
c 1.0 
d 本 :号 


dtype: float64 
ser. rank(method = 'min') 


out[86] : 
a 3.0 
b 2.0 


e 1.0 
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d 3.0 
dtype: float64 
ser. rank(method = 'max') 


Out[87]: 
a 4.0 
b 2.0 
a 1.0 
d 4.0 


dtype: float64 
ser. rank(method = 'first') 


Out[88]: 
a 3.0 
b 2.0 
c 1.0 
d 4.0 


dtype: float64 


注意 在 serL0j] 二 ser[3] 这 对 平 级 项 上 ,不 同 method 参数 表现 出 的 不 同名 次 。 
DataFrame 的 . rank(axis 二 0, method 二 'average',，ascending 二 True) 方 法 多 了 个 axis 


参数 ,可 选择 按 行 或 列 分 别 进行 排名 ,暂时 好 像 没 有 针对 全 部 元 素 的 排名 方法 。 
2.3.8 常用 的 统计 方法 


Pandas 对 象 有 一 些 统计 方法 。 它 们 大 部 分 都 属于 约 简 和 汇总 统计 ,用 于 从 Series 中 提 
取 单 个 值 ,或 从 DataFrame 的 行 或 列 中 提取 一 个 Series。 比 如 DataFrame. mean(Caxis 一 0， 
skipna 一 True) 方 法 , 当 数 据 集中 存在 NA 值 时 ,这 些 值 会 被 简单 跳 过 ,除非 整个 切片 ( 行 或 
列 ) 全 是 NA, 如 果 不 想 这 样 , 则 可 以 通过 skipna 王 False 来 禁用 此 功能 。 

设置 数据 如 下 : 


data = {'one':[2012,2013,2014,2015,2016], 'two':[1.5,1.7,3.6,2.4,2.9]} 
df = DataFrame(data) 
df 

Out[97]: 

one two 

2012 1.5 

2013 1.7 

2014 3.6 

2015 2.4 

2016 2.9 
df.mean() 

one 3.083333 

two 一 2.900000 
dtype: float64 
df.mean(axis=1) 
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Out[98]: 
one 2014.00 
two 2.42 


dtype: float64 
df.mean(axis = 1, skipna = False) 
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Out[99]: 
d 0 1006.75 
8 1 1007.35 
2 1008.80 
3 1008.70 
4 1009.45 


dtype: float64 
常用 的 统计 方法 如 表 2-2 所 示 。 
表 2-2 常用 的 统计 方法 


名 称 功 能 
count 非 NA 值 的 数量 
describe 针对 Series 或 DF 的 列 计算 汇总 统计 
min, max 最 小 值 和 最 大 值 
argmin, argmax 最 小 值 和 最 大 值 的 索引 位 置 (整数 ) 
idxmin, idxmax 最 小 值 和 最 大 值 的 索引 值 
quantile 样本 分 位 数 (0 到 1) 
sum 求 和 
mean 均值 
median 中 位 数 
mode 众 数 
mad 根据 均值 计算 平均 绝对 离 差 
var 方差 
std 标准 差 
skew 样本 值 的 偏 度 (三 阶 矩 ) 
kurt 样本 值 的 峰 度 (四 阶 矩 ? 
cumsum 样本 值 的 累计 和 
cummin, cummax 样本 值 的 累计 最 大 值 和 累计 最 小 值 
cumprod 样本 值 的 累计 积 
diff 计算 一 阶 差分 (对 时 间 序列 很 有 用 ) 
pct_change 计算 百分数 变化 


2.3.9 处 理 缺 失 数 据 


Pandas 中 NA 的 主要 表现 为 np. nan, 另 外 Python 内 建 的 None 也 会 被 当做 NA 处 理 。 
处 理 NA 的 方法 有 三 种 : isCnot)null,dropna,fillna。 


1. is(not)null 
这 一 方法 对 对 象 做 元 素 级 应 用 ,然后 返回 一 个 布尔 型 数组 ,一 般 可 用 于 布尔 型 索引 。 
2. dropna 


对 于 一 个 Series,dropna 返回 一 个 仅 含 非 空 数据 和 索引 值 的 Series。 
问题 在 于 对 DataFrame 的 处 理 方 式 ,因为 一 旦 drop 的 话 , 至 少 要 丢掉 一 行 ( 列 )。 这 里 
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的 解决 方式 与 前 面 类 似 , 还 是 通过 一 个 额外 的 参数 : dropna(axis 一 0,how 一 'any',thresh 一 
None) ,how 参数 可 选 的 值 为 any 或 者 all。all 仅 在 切片 元 素 全 为 NA 时 才 抛 弃 该 行 ( 列 )。 
另外 一 个 有 趣 的 参数 是 thresh ,该 参数 的 类 型 为 整数 , 它 的 作用 是 ,比如 thresh 一 3, 会 在 一 
行 中 至 少 有 3 个 非 NA 值 时 将 其 保留 。 


3. fillna 


fillna(value 二 None, method 二 None, axis 王 0) 中 的 value 参数 除了 基本 类 型 外 ,还 可 
以 使 用 字典 ,这 样 可 以 实现 对 不 同 的 列 填充 不 同 的 值 。method 的 用 法 与 前 面 . reindex() 方 
法 相同 ,这 里 不 再 歼 述 。 

要 注意 的 是 : 在 Series 和 DataFrame 对 象 的 方法 中 ,凡是 会 对 数组 作出 修改 并 返回 一 
个 新 数组 的 ,往往 都 有 一 个 replace 王 False 的 可 选 参数 。 如 果 手 动 设 定 为 True, 那么 原 数 组 
就 可 以 被 蔡 换 。 


练 习 题 


1. 举例 说 明 NumPy 中 的 矩阵 计算 。 
2. 举例 说 明 SciPy 中 的 统计 计算 。 
3. 举例 说 明 Pandas 中 的 对 象 应 用 。 


Python 数据 分 析 的 数据 存 取 


3.1 Python-NumPy 数据 存 取 


在 科学 计算 与 数据 分 析 的 过 程 中 ,往往 需要 保存 一 些 数据 ,也 经 常 需要 把 保存 的 这 些 数 
据 加 载 到 程序 中 ,在 Matlab 中 我 们 可 以 用 save 和 load 函数 很 方便 地 实现 。 类 似 地 ,在 
Python 中 ,我 们 可 以 用 NumPy. save() 和 NumPy. load() 函 数 达到 类 似 的 效果 ,并 且 还 可 以 
用 SciPy. io. savemat() 将 数据 保存 为 . mat 格式 ,用 SciPy. io. loadmat() 读 取 . mat 格式 的 数 
据 , 达 到 可 以 和 Matlab 进行 数据 互动 的 效果 。 

下 面 对 上 述 函 数 分 别 介绍 。 


3.1.1 Python-NumPy 数据 保存 NumPy. save() 
NumPy. save(arg_1,arg_2) 需 要 两 个 参数 ,arg_1 是 文件 名 ,arg_2 是 要 保存 的 数组 。 例 如 : 


import NumPY as np 

a= np.mat('1,2,3;4,5,6') 

b= np.array([[1,2,3],[4,5,6]]) 
np. save( 'a. npy',a) 

np. savel( 'b. npy', b) 


这 个 时 候 Python 的 当前 工作 路 径 下 就 会 多 出 a. npy 和 b. npy 两 个 文件 ,当然 我 们 也 
可 以 给 出 具体 的 路 径 ,例如 : np. save('G:/2glkx/data/a. npy',a), 就 把 数据 保存 在 G:/ 
2glkx/data 的 目录 中 。 


3.1.2 ”Python-NumPy 数据 读 取 NumPy.load() 
下 面 把 保存 的 这 两 个 数据 文件 导入 Python: 


data a= np. load( 'a. npy') 
data b= np. load( 'b. npy') 
print 'data a \n',data_ a, '\n the type is', type(data a) 
print 'data_b \n', data_a, '\n the type is', type(data_b) 
data a 
[[123] 

[456]] 

the type is < type 'NumPy. ndarray’> 


第 3 章 Python 数据 分 析 的 数据 存 取 39 


data_b 
[[123] 
[456]] 
the type is < type 'NumPY. ndarray'> 


我 们 可 以 看 到 这 一 过 程 把 原本 为 矩阵 的 a 变 为 数组 型 了 。 
如 果 想 同时 保存 a、b 到 同一 个 文件 ,我 们 可 以 用 np. savez() 函 数 , 具 体 用 法 如 下 : 


np. savez('ab.npz'k a=a,k b=b) 
c= np. load( 'ab. npz') 

print c['k_a'] 

print c['k_b'] 


得 到 如 下 的 输出 结果 : 


[[123] 
[456]] 

[[123] 
[456]] 


这 时 的 c 是 一 个 字典 ,需要 通过 关键 字 取 出 我 们 需要 的 数据 。 
3.2 Python-SciPy 数据 存 取 


Python-SciPy 数据 存 取 的 方法 如 下 : 

SciPy. io. savemat() 和 SciPy. io. loadmat() 。 

首先 我 们 用 SciPy. io. savemat() 创建. mat 文件 ,该 函数 有 两 个 参数 ,一 个 文件 名 和 一 
个 包含 变量 名 和 取 值 的 字典 。 


import NumPy as np 

from SciPy import io 

a= np.mat('1,2,3;4,5,6') 

b= np.array([[1,1,1],[2,2,2]]) 
io. savemat('a. mat', {'matrix': a}) 
io. savemat( 'b. mat', {'array': b}) 


至 此 Python 的 当前 工作 路 径 下 就 多 了 a. mat 和 b. mat 这 两 个 文件 。 


3.3 Python-Pandas 的 csv 格式 数据 文件 存 取 


Python-Pandas 的 csv 格式 数据 文件 的 存 取 , 可 以 通过 p. to_csv() 和 pd. read_csv() 函 
数 来 解决 ,实例 如 下 : 


import Pandas as pd 

import NumPy as np 

a=['apple', 'pear', 'watch', 'money'] 
b={[1l2,3,.4;5],[5,7;8,9,0],[1,3,5,7,9],12,4,6,.8,01] 
d= dict(zip(a,b)) 

d 
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p= pd.DataFrame(d) 
Pp 
Pp. to_csv( 'G:\\2glkx\\data\\IBM. csv') 


在 Excel 中 打开 IBM. csv 数据 文件 ,得 到 如 图 3-1 所 示 的 数据 。 


pd. read_csv( 'G:\\2glkx\\data\\IBM. csv') 


图 3-1 IBM. csv 中 的 数据 


得 到 如 下 数据 : 
Out[14]: 

Unnamed: 0 apple money pear watch 
0 0 2 5 和 
到 2 4 和 3 
2 2 3 6 8 5 
3 3 4 8 Ed 7 
4 4 5 0 0 9 


3.4 Python-Pandas 的 Excel 格式 数据 文件 存 取 


Python-Pandas 的 Excel 格式 数据 文件 的 存 取 ,可 以 通过 pd. read_excel() 和 pd. read_ 
csv() 函 数 来 解决 。 实 例如 下 : 
先 在 G 盘 的 \\2glkx\\data\\ 目 录 下 建立 一 个 名 为 al3-1. xls 的 Excel 文件 。 如 图 3-2 所 示 。 


Sem mm no 
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S 
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| «HN sheet1 /Sheet2/ Sheet3/ 


图 3-2 Excel 文 件 
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然后 通过 如 下 命令 来 读 取 Excel 文件 中 的 数据 。 


import Pandas as pd 
import NumPY as np 
df = pd. read_excel( 'G:\\2glkx\\data\\al3 — 1.xls') 


df. head( ) 
得 到 如 下 数据 : 
Out[23]: 

BH 2Z1 22 23 24 K 
0 1 7 26 6 60 78.5 
1 2 1 29 15 52 74.3 
2 3 11 56 8 20 104.3 
3 外 11 31 9 67 87.6 
4 5 7 52 6 3 935.9 


3.5 读 取 并 查看 数据 表 列 


准备 工作 完成 后 ,开始 读 取 数 据 ,这 里 我 们 使 用 了 一 组 Z1 和 2Z2 的 数据 。 将 这 组 数据 
读 取 到 Python 中 并 取 名 为 data。 通 过 head 函数 查看 数据 表 中 前 5 行 的 内 容 。 以 下 是 数据 
读 取 和 查看 的 代码 和 结果 。 


import Pandas as pd 

import NumPy as np 

# 读 取 数 据 并 创建 数据 表 , 名 称 为 data。 

data = pd. DataFrame(pd. read_excel( 'G:\\2glkx\\data\\al3 — 1.xls')) 
# 查 看 数据 表 前 5 行 的 内 容 

data. head( ) 


在 data 数据 表 中 ,我 们 将 Z1 设置 为 自 变量 X, 将 Z2 设置 为 因 变量 Y。 并 通过 shape 也 
数 查 看 了 两 个 变量 的 行 数 ,每 个 变量 13 行 , 这 是 我 们 完整 数据 表 的 行 数 。 


# 将 21 设 为 自 变 量 X 

X = np.array(data[['2Z1']]) 
# 将 22 设 为 因 变量 Y 

Y = np.array(data[['Z2']]) 
# 查 看 自 变量 和 因 变 量 的 行 数 
X. shape, Y. shape 


3.6 读 取 Yahoo 财经 网 站 数据 


我 们 可 以 使 用 Python 的 Pandas 读 取 Yahoo 财经 网 站 的 数据 ,代码 如 下 : 


import Pandas. io. data as web 

from Pandas import DataFrame 

data feed = {} 

# 从 Yahoo 财经 网 站 读 取 Apple 和 Facebook 股票 2016/1/1 到 2016/10/1 期 间 的 数据 
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data feed[1] = web.get data yahoo( 'AAPL', '01/1/2016', '10/1/2016') 

data feed[2] = web.get data yahoo('FB', '01/1/2016', '10/1/2016') 

price = DataFrame({tic: data[ 'Adj Close'] for tic, data in data feed. iteritems()}) 
# 显 示 前 5 条 记录 

price. head( ) 

Out[1]: 


Date 

2016-01-04 103.586180 102.220001 
2016-01-05 100.990380 102.730003 
2016-01-06 99.014030 102.970001 
2016-01-07 94.835186 97.919998 
2016-01-08 95.336649 97.330002 
# 显 示 最 后 5 条 记录 

price. tail() 

Out[2]: 


Date 

2016- 09-26 112.879997 127.309998 
2016-09-27 113.089996 128.690002 
2016- 09-28 113.949997 129.229996 
2016- 09-29 112.180000 128.089996 
2016- 09-30 113.050003 128.270004 


3.7 读 取 挖 地 免 财经 网 站 数据 


我 们 可 以 使 用 Python 的 Pandas 读 取 挖 地 免 财 经 网 站 数据 ,代码 如 下 : 


import tushare as ts # 需 先 安 装 tushare 程序 包 

# 此 程序 包 的 安装 命令 : pip install tushare 

import Pandas as pd 

import NumPy as np 

symbols = [ '600000', '000980', '000981'] 

# 把 相对 应 股票 的 收盘 价 按照 时 间 的 顺序 存 人 DataFrame 对 象 中 

data = pd.DataFrame() 

datal = ts.get_ hist_data('600000','2016— 01—01','2016-10-1') 
datal = datal[ 'close'] 

datal = datal[::—1] # 按 日 期 从 2016/1/1 开始 到 2016/10/1 结束 
data[ '600000'] = datal 

data2 = ts.get_hist data('000980', '2016— 01—01','2016-10-1') 
data2 = data2[ 'close'] 

data2 = data2[:: 一 1] 

data[ '000980'] = data2 

data3 = ts.get hist data('000981','2016— 01—01','2016-10-1') 
data3 = data3[ 'close'] 


data3 = data3[::—1] 
data[ '000981'] = data3 
data. info( ) # 查 看 数据 情况 


<class 'Pandas. core. frame. DataFrame'> 


Index: 166 entries, 2016— 01— 04 to 2016- 09—30 
Data columns (total 3 columns): 

600000 166 non — null float64 

000980 106 non - null float64 

000981 137 non — null float64 


dtypes: float64(3) 


memory usage: 4.5+ KB 
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= 外 


由 上 可 见 , 三 个 股票 数据 的 记录 不 一 致 ,有 些 股 票 有 null 值 。 


# 清理 数据 


data = data. dropna( ) 


data. info( ) 


<class 'Pandas. core. frame. DataFrame'> 


Index: 106 entries, 2016- 04—12 to 2016- 09—09 
Data columns (total 3 columns): 

600000 106 non— null float64 

000980 106 non - null float64 

000981 106 non - null float64 


dtypes: float64(3) 


memory usage: 2.9+ KB 


由 上 可 见 , 三 个 股票 数据 的 记录 一 致 ,null 值 消 除 。 


## 显 示 前 5 条 
data. head( ) 
Out[13]: 


date 

2016- 04-12 
2016- 04-13 
2016- 04-14 
2016- 04- 15 
2016- 04-18 


# 显示 最 后 5 条 


data.tail() 
Out[14] : 


date 

2016- 09- 05 
2016- 09-06 
2016- 09- 07 
2016- 09- 08 
2016 - 09 - 09 
# 取 列 数据 


600000 000980 000981 


17.62 
17.75 
17.80 
17.89 
17.82 


600000 000980 000981 


16.50 
16.42 
16.48 
16.60 
16.55 


6.82 
了 7550 
8.25 
9.08 
9.99 


10.10 
10.38 
10.22 
10.30 
10.54 


9.20 
9.25 
9.62 
9.55 
9.30 


10,17 
10.18 
10.19 
10.27 
10.22 


data= data[['600000', '000981']] 


data. head( ) 
Out[20]: 


date 
2016- 04- 12 
2016- 04- 13 


600000 000981 


17.62 
7.75 


9.20 
9.25 
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wy 


加 


2016-04-14 17.80 9.62 
2016-04-15 17.89 9.55 
2016--04-18 17.82 9.30 
# 取 2 行 到 4 行 的 数据 
data. ix[1:4] 
Out[21]: 

600000 000981 
date 
2016-04-13 17.75 9.25 
2016-04-14 17.80 9.62 
2016-04-15 17.89 9.35 
# 取 第 1 行 到 第 2 行 及 第 1 列 到 第 3 列 的 数据 
data. iloc[ :2, :3] 
Out[24]: 

600000 000981 
date 
2016-04-12 17.62 9.20 
2016-04-13 17.75 9.25 


3.8 挖 地 兔 Tushare 财经 网 站 数据 保存 与 读 取 


Tushare 提供 的 数据 存储 模块 主要 是 引导 用 户 将 数据 保存 在 本 地 磁盘 或 数据 库 服务 器 
上 ,便于 后 期 的 量化 分 析 和 回 测 使 用 ,以 文件 格式 保存 在 电脑 磁盘 的 方式 上 ,调用 的 是 
Pandas 本 身 自 带 的 方法 ,此 处 会 罗列 常用 的 参数 和 说 明 , 另 外 ,也 会 通过 实例 ,展示 操作 的 
方法 。 

(1) 保存 为 csv 格式 ; 

(2) 保存 为 Excel 格式 。 


3.8.1 保存 为 csv 数据 文件 


Pandas 的 DataFrame 和 Series 对 象 提 供 了 直接 保存 csv 文件 格式 的 方法 ,通过 参数 设 
定 , 轻 松 将 数据 内 容 保存 在 本 地 磁盘 。 
常用 参数 说 明 : 
path_or_buf: csv 文件 存放 路 径 或 者 StringIO 对 象 
sep: 文 件 内 容 分 隔 符 ,默认 为 逗号 
na_rep: 在 遇 到 NaN 值 时 保存 为 某 字符 ,默认 为 '' 空 字符 
float_format: float 类 型 的 格式 
columns: 需 要 保存 的 列 ,默认 为 None 
header: 是 否 保存 columns 名 ,默认 为 True 
index: 是 否 保存 index, 默 认为 True 
mode: 创 建新 文件 还 是 追加 到 现 有 文件 ,默认 为 新 建 
encoding :文件 编码 格式 
* date_format: 日 期 格式 
注 : 在 设 定 path 时 ,如 果 目 录 不 存在 ,程序 会 提示 IOError, 请 先 确 保 目 录 已 经 存在 于 
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磁盘 中 。 pd 
调用 方法 如 下 : 入 


import tushare as ts 

df = ts.get_hist_data('000875') # 从 网 上 取 数 据 

井 直接 保存 

df. to_csv('G:/2glkx/data/000875. csv') 

# 选 择 数据 保存 

df. to_csv('G:/2glkx/data/000875. csv', columns = [ 'open', 'high', 'low', 'close']) 


2. 读 取 csv 数据 文件 


import Pandas as pd 

import NumPy as np 

df = pd. read_csv( 'G:/2glkx/data/000875. csv') 
df. head() 

Out[7]: 

Unnamed: 0 open high low close 
9.78 9.95 9.78 9.89 
9.79 9.83 9:71 9.71 
9.91 9.94 9.77 9.80 
9.61 9.93 9.60 9.86 
9.61 9.75 9 9.70 


追加 数据 的 方式 : 
某 些 时 候 , 可 能 需要 将 一 些 同 类 数据 保存 在 一 个 大 文件 中 ,这 时 候 就 需要 将 数据 追加 在 
同一 个 文件 里 ,简单 举例 如 下 : 


wb Po 
wb ro 


import tushare as ts 
import os 
filename = 'G:/2glkx/data/bigfile.csv' 
for code in ['000875'，"600848'，'000981 '] : 
df = ts.get hist data(code) 
if os. path. exists(filename): 
df.to csv(filename, mode = 'a', header = None) 
else: 
df. to_csv(filename) 


注 : 如 果 是 不 考虑 header, 直接 df. to_csv(filename, mode 二 'a') 即 可 ,否则 ,每 次 循环 
都 会 把 columns 名 称 也 append 进去 。 


3.8.3 保存 为 Excel 文件 


Pandas 将 数据 保存 为 Microsoft Excel 文件 格式 。 
常用 参数 说 明 : 

< _ excel _writer: 文 件 路 径 或 者 ExcelWriter 对 象 
* sheet_name:sheet 名 称 , 默 认为 Sheetl 

x sep: 文 件 内 容 分 隔 符 ,默认 为 逗号 
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@ x na_rep: 在 遇 到 NaN 值 时 保存 为 某 字 符 , 默 认为 '“ 空 字符 
是 # float_format: float 类 型 的 格式 


x columns: 需 要 保存 的 列 ,默认 为 None 

x header: 是 否 保存 columns 名 ,默认 为 True 

x* index: 是 否 保存 index, 默 认为 True 

x* _ encoding: 文 件 编码 格式 

x* startrow: 在 数据 的 头 部 留 出 startrow 行 空 行 
x* startcol: 在 数据 的 左边 留 出 startcol 列 空 列 
调用 方法 如 下 : 

import tushare as ts 


df = ts.get_hist_data('000875')# 直接 保 存 
df. to_excel('G:/2glkx/data/000875. xls') 


# 设 定数 据 位 置 (从 第 3 行 , 第 6 列 开始 插入 数据 ) 
df.to_excel('G:/2glkx/data/000875.xls'，startrow = 2, startcol = 5) 


3.8.4 读 取 Excel 数据 文件 


import Pandas as pd 
import NumPY as np 
df = pd. read_excel( 'G:/2glkx/data/000875. xl1s') 


df. head() 
Out[8]: 
date open high close low volume price change p change \ 

0 2016-09-30 9.78 9.95 9.89 9.78 131285.98 0.18 1.85 
1 2016-09=29 9.79 9.83 9.71 9.71 98927.06 -0.09 =.92 
2 2016=-09=28 9.91 9.94 9.80 9.77 91305.71 -0.06 一 0.61 
3 2016-09-27 9.61 9.93 9.86 9.60 172743. 69 0.16 1.65 
4 2016-09-26 9.61 9.75 9.70 9.41 196297.12 0.09 0.94 

ma5 mal0 ma20 V_ma5 V_mal0 V_ma20 turnover 
0 9.792 9.791 9.951 138111.91 119221.06 164760.83 0.51 
1 9.736 9.789 9.992 143008.49 116914.86 177486.79 0.38 
2 9.756 9.808 10.036 146922.54 119919.89 199339.76 0.35 
3 9.760 9.809 10.103 144481.56 130811.11 237806.81 0.67 
4 9.756 9.845 10.167 123659.19 131849.10 309501.15 0.76 


练 习 题 


1. 按照 本 章 的 实例 ,应 用 Python-NumPy 的 方法 存 取 数 据 。 
2 dap 应 用 Python-SciPy 的 方法 存 取 数据 。 
按照 本 章 的 实例 ,应 用 Python-Pandas 的 方法 存 取 csv 和 Excel 格式 的 数据 。 


Python 图 形 的 绘制 和 可 视 化 


4.1 Matplotlib 绘图 应 用 基础 


Python 提供 了 非常 多 样 的 绘图 功能 ,可 以 通过 Python 提供 的 工具 Matplotlib 绘制 二 
维 .三 维 图 形 。 还 有 一 个 Seaborn 是 Python 中 用 于 创建 信息 丰富 和 有 吸引 力 的 统计 图 形 库 
的 , 它 是 基于 Matplotlib 的 。Seaborn 提供 多 种 功能 ,如 内 置 主题 \ 调 色 板 、 函 数 和 工具 ,来 
实现 单 因 素 、 双 因素 .线性 回归 数据 矩阵 .统计 时 间 序 列 等 的 可 视 化 ,以 便 我 们 进一步 构建 
更 加 复杂 的 可 视 化 。 

Matplotlib 库 里 的 常用 对 象 类 的 包含 关系 为 : Figure -二 Axes -二 (Line2D,Text ,etc. ) ,一 
个 Figure 对 象 可 以 包含 多 个 子 图 (Axes) ,在 Matplotlib 中 用 Axes 对 象 表示 一 个 绘图 区 域 ， 
可 以 理解 为 子 图 。 我 们 可 以 使 用 subplot() 快 速 绘制 包含 多 个 子 图 的 图 表 , 它 的 调用 形式 
如 下 : 


subplot (numRows, numCols, plotNum) 


subplot 将 整个 绘图 区 域 等 分 为 numRows 行 乘 numCols 列子 区 域 ,然后 按照 从 左 到 
右 、 从 上 到 下 的 顺序 对 每 个 子 区 域 进行 编号 ,左上 的 子 区 域 的 编号 为 1。 如 果 numRows， 
numCols 和 plotNum 这 三 个 数 都 小 于 10 的 话 , 可 以 把 它们 缩写 为 一 个 整数 ,例如 subplot 
(323) 和 subplot(3,2,3) 是 相同 的 。subplot 在 plotNum 指定 的 区 域 中 创建 一 个 轴 对 象 。 如 
果 新 创建 的 轴 和 之 前 创建 的 轴 重 和 琶 的 话 , 之 前 的 轴 将 被 删除 。 

这 里 不 可 能 详细 说 明 Matplotlib 在 绘图 方面 的 所 有 功能 ,主要 是 因为 每 个 绘图 函数 都 
有 大 量 的 选项 ,使 得 图 形 的 绘制 十 分 灵活 多 变 。 

Matplotlib 常用 的 制图 功能 有 : 直方 图 、 散 点 图 、 曲 线 标 绘图 、 连 线 标 绘 图 、 箱 图 、 饼 图 、 
条 形 图 、 点 图 等 ,下 面 我 们 通过 实例 来 说 明 Matplotlib 几 种 主要 图 形 的 绘制 方法 。 


4.2 直方 图 的 绘制 


直方 图 又 叫 柱状 图 ,是 一 种 统计 报告 图 ,由 一 系列 高 度 不 等 的 纵向 条 纹 或 线段 表示 数据 
分 布 的 情况 ,一 般 用 横 轴 表示 数据 类 型 , 纵 轴 表示 分 布 情况 。 通 过 绘制 直方 图 ,可 以 较为 直 
观 地 传递 有 关 数 据 的 变化 信息 ,使 数据 使 用 者 能 够 较 好 地 观察 数据 波动 的 状态 ,使 数据 决策 
者 依据 分 析 结 果 确定 在 什么 地 方 需要 集中 力量 改进 工作 。 
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例 4-1 为 了 解 某 公司 雇员 的 销售 和 收入 情况 ,我 们 搜集 整理 了 某 公 司 10 个 雇员 的 销 
售 和 收入 有 关 方 面 的 数据 ,如 表 4-1 所 示 。 试 通过 绘制 直方 图 来 直观 显示 该 公司 职员 的 有 


EE 


关 情 况 。 
表 4-1 某 公司 雇员 的 销售 和 收入 等 情况 

EMPID Gender Age Sales BMI Income 

(雇员 号 ) (性 别 ) (年 龄 ) (销售 ) (体质 指数 身高 和 体重 ) (收入 ) 
EM001 M 34 123 Normal 350 
EM002 F 40 114 Overweight 450 
EM003 F 37 135 Obesity 169 
EM004 M 30 139 Overweight 189 
EM005 下 44 117 Overweight 183 
EM006 M 36 121 Normal 80 
EM007 M 32 133 Obesity 166 
EM008 下 26 140 Normal 120 
EM009 M 32 133 Normal 75 
EM010 M 36 133 Overweight 40 


在 目录 G:\2glkx\data 下 建立 al4-1. xls 数据 文件 后 ,导入 图 形 库 和 数据 集 的 命令 如 下 : 


import matplotlib. pyplot as plt 

import Pandas as pd 

import NumPy as np 

df = pd. read_excel("G:/2glkx/data/al4 — 1.xls") 

# 或 者 df = pd. read_excel('G:\\2glkx\\data\\al4 — 1.xls') 


df. head() 
得 到 如 下 数据 : 
Out[21]: 

EMPID Gender Rge Sales BMI Income 
0 EM001 M 34 123 Normal 350 
1 EM002 F 40 114 Overweight 450 
2 EM003 F 37 135 Obesity 169 
3 EM004 M 30 139 QOverweight 189 
4 EM005 F 44 117 QOverweight 183 


绘制 直方 图 命令 如 下 : 


fig = plt. figure() 

ax = fig.add_subplot(1,1,1) 

ax. hist(df[ 'Age'],bins = 7) 

plt. show() 

最 后 得 到 如 图 4-1 所 示 的 结果 。 

通过 观察 直方 图 ,可 见 各 雇员 年 龄 的 分 布 情况 。 

上 面 的 命令 比较 简单 ,分 析 过 程 及 结果 已 经 达到 了 解决 实际 问题 的 要 求 。 但 R 的 强大 
之 处 在 于 , 它 同样 提供 了 更 加 复杂 的 命令 格式 ,以 满足 用 户 更 加 个 性 化 的 需求 。 
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图 4-1 直方 图 1 


1. 给 图 形 增 加 标题 
例如 ,我 们 要 给 图 形 增加 标题 : Age distribution, 那 么 上 面 的 命令 应 为 : 


fig= plt. figure() 

ax= fig.add_ subplot(1,1,1) 
ax. hist(df[ 'Age'],bins = 7) 
plt. title( 'Age distribution') 
plt. show( ) 


输入 完成 后 , 按 回 车 键 , 得 到 如 图 4-2 所 示 的 结果 。 


Age distribution 
3.0 + - + 


0 
26 28 3 和 34 36 38 40 入 44 
图 4-2 直方 图 2 


2. 给 坐标 轴 增 加 数值 标签 
例如 ,我们 要 在 图 4-2 的 基础 上 对 X,Y 轴 添 加 符号 标签 ,那么 上 面 的 命令 就 应 为 : 


fig= plt.figure() 

ax= fig.add subplot(1,1,1) 
ax. hist(df[ 'Age'],bins = 7) 
plt. title( 'Age distribution') 
plt.xlabel('age') 

plt. ylabel( '# Employee') 

plt. show() 
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| 输入 完成 后 , 按 回 车 键 , 得 到 如 图 4-3 所 示 的 结果 。 
a Age distribution 

3.0 Or 
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g 2.0 
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号 1 
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0026 28 0 对 入 村 

Age 
图 4-3 直方 图 3 


4.3 散 点 图 的 绘制 


散 点 图 就 是 点 在 坐标 系 平面 上 的 分 布 图 , 它 对 数据 预 处 理 有 很 重要 的 作用 。 研 究 者 对 
数据 制作 散 点 图 的 主要 出 发 点 是 通过 绘制 该 图 来 观察 某 变量 随 另 一 变量 变化 的 大 致 趋势 ， 
据 此 可 以 探索 数据 之 间 的 关联 关系 ,甚至 选择 合适 的 函数 对 数据 点 进行 拟 合 。 

例 4-2 具体 数据 见 例 4-1。 

要 绘制 年 龄 .销售 的 散 点 图 ,输入 如 下 命令 : 


fig= plt. figure() 

ax= fig.add_subplot(1,1,1) 

ax. scatter(df[ 'Age'], df[ 'Sales']) 

# You can also add more variables here to represent color and size. 
plt. title( 'Age & Sales Scatter of Employee') 

#Variable 

plt. xlabel( 'Age') 

plt. ylabel( 'Sales') 

plt. show() 


输入 完 上 述 命 令 后 , 按 回 车 键 ,得 到 如 图 4-4 所 示 的 结果 。 


145 Age & Sales Scatter of Employee 
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通过 观察 图 4-4 所 示 的 散 点 图 ,可 以 看 出 这 些 雇员 的 年 龄 和 销售 收入 的 有 关 情 况 。 
4.4 气泡 图 的 绘制 
例 43 具体 数据 见 例 41. 


可 以 通过 scatter() 中 的 s 参数 来 绘制 气泡 图 ,如 在 绘制 年 龄 与 销售 额 的 散 点 图 时 ,通过 
气泡 的 大 小 来 反映 收入 的 大 小 。 可 以 输入 如 下 命令 : 


e@@ 


fig= plt. figure() 

ax= fig.add_ subplot(1,1,1) 

ax, scatter(df[ 'Age'], df[ 'Sales'],s = df[ 'Income']) 
# Added third variable income as size of the bubble 
plt. xlabel( 'Age') 

plt. ylabel( 'Sales') 

plt. show( ) 


输入 完 上 述 命 令 后 , 按 回 车 键 ,得 到 如 图 4-5 所 示 的 结果 。 
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4-5 气泡 图 


通过 观察 图 4-5 所 示 的 气泡 图 ,可 以 看 出 这 些 雇员 的 年 龄 和 销售 收入 的 有 关 情 况 ,还 可 
以 根据 气泡 的 大 小 看 出 雇员 的 收入 情况 。 


4.5 箱 图 的 绘制 


箱 图 又 称 为 箱 线 图 、 盒 须 图 ,是 一 种 用 于 显示 一 组 数据 分 散 情况 的 统计 图 。 箱 图 很 形象 
地 分 为 中 心 、 延 伸 以 及 分 部 状态 的 全 部 范围 , 它 提 供 了 一 种 只 用 5 个 点 对 数据 集 进行 简单 总 
结 的 方式 ,这 5 个 点 包括 中 点 `.Q1、`Q3、 分 部 状态 的 高 位 和 低位 。 数 据 分 析 者 通过 绘制 箱 图 
可 以 直观 明了 地 识别 数据 中 的 异常 值 ,判断 数据 的 偏 态 、 尾 重 以 及 比较 几 批 数据 的 形状 。 

例 4-4 具体 数据 见 例 4-1。 

要 绘制 年 龄 的 箱 图 ,输入 如 下 命令 : 

import matplotlib. pyplot as plt 


import Pandas as pd 
fig= plt.figure() 
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es@@ 


ax= fig.add subplot(1,1,1) 
#Variable 

ax. boxplot (df[ 'Age']) 
plt.title(' Box figure of Age') 


plt. show() 
输入 上 述 命令 后 , 按 回 车 键 ,得 到 如 图 4-6 所 示 的 结果 。 
44 Box figure of Age 
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图 4-6 箱 图 


通过 观察 箱 图 4-6, 可 以 了 解 到 很 多 信息 。 箱 图 把 所 有 数据 分 成 了 4 部 分 ,第 1 部 分 是 
从 项 线 到 箱子 的 上 部 ,这 部 分 数据 值 在 全 体 数 据 中 排名 前 25%; 第 2 部 分 是 从 箱子 的 上 部 
到 箱子 中 间 的 线 , 这 部 分 数据 值 在 全 体 数 据 中 排名 前 25% 以 下 ,50% 以 上 ; 第 3 部 分 是 从 箱 
子 的 中 间 到 箱子 底部 的 底线 ,这 部 分 数据 值 在 全 体 数据 中 排名 前 50% 以 下 75% 以 上 ; 第 4 
部 分 是 从 箱子 的 底部 到 底线 ,这 部 分 数据 值 在 全 体 数据 中 排名 后 25%。 顶 线 和 底线 的 间距 
在 一 定 程度 上 表示 了 数据 的 离散 程度 ,间距 越 大 就 越 离散 。 就 本 例 而 言 , 可 以 看 到 年 龄 的 中 
位 数 在 35 岁 左右 ,年 龄 最 高 值 可 达到 40 岁 。 

若 要 绘制 多 个 属性 的 箱 图 ,可 使 用 如 下 代码 : 

vars=['Age', 'Sales'] 

data = df[vars] 

plt. show(data. plot (kind = 'box')) 

输入 上 述 命令 后 , 按 回 车 键 ,得 到 如 图 4-7 所 示 的 结果 。 
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图 4-7 多 属性 箱 图 
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4.6 ”人 饼 图 的 绘制 


饼 图 是 数据 分 析 中 常见 的 一 种 经 典 图 形 , 因 其 外 形 类 似 于 圆 饼 而 得 名 。 在 数据 分 析 中 ， 
很 多 时 候 需要 分 析 数 据 总 体 的 各 个 组 成 部 分 的 占 比 ,我 们 可 以 通过 各 个 部 分 与 总 额 相 除 来 
计算 ,但 这 种 数学 比例 的 表示 方法 相对 抽象 ,Python 提供 了 饼 形制 图 工具 ,能 够 直接 以 图 形 
的 方式 显示 各 个 组 成 部 分 所 占 比 例 。 更 为 重要 的 是 ,由 于 饼 图 采用 图 形 的 方式 ,因此 更 加 形 
象 直观 。 


4.6.1 简单 饼 图 的 绘制 


例 4-5 具体 数据 见 例 4-1。 
在 目录 G:\2glkx\data 下 建立 al4-1. xls 数据 文件 后 ,使 用 如 下 命令 读 取 数 据 : 


import matplotlib. pyplot as plt 

import Pandas as pd 

import NumPy as np 

df = pd. read_excel("G:/2glkx/data/al4 — 1.xls") 


df. head() 
得 到 显示 前 5 条 记录 的 数据 如 下 : 

EMPID Gender Rge Sales BMI Income 
0 EM001 M 34 123 Normal 350 
1 EM002 F 40 114 Overweight 450 
2 EM003 了 37 135 Obesity 169 
3 EM004 M 30 139 Overweight 189 
4 EM005 F 44 117 QOverweight 183 


在 IPython console 输入 如 下 命令 : 


var = df. groupby([ 'Gender']). sum(). stack() 

temp = var. unstack( ) 

x_list= temp[ 'Sales'] 

label_ list = temp. index 

plt. axis("equal”") 

plt. pie(x_list) 

plt. title("Pastafatianism expenses") Pastafatianism expenses 
plt. show( ) 


输入 完 上 述 命令 后 , 按 回 车 键 ,得 到 如 图 4-8 所 示 的 结果 。 
通过 观察 该 饼 图 (图 4-8) ,可 以 看 出 该 公司 的 雇员 销售 收入 的 
情况 , 男 雇员 销售 收入 占 60% 左 右 , 女 雇员 销售 收入 占 40% 左 右 。 


4.6.2 复杂 饼 图 的 绘制 
下 面 给 出 一 个 绘制 复杂 饼 图 的 程序 。 图 4-8 简单 饼 图 
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from pylab import 关 


# make a square figure and axes 
figure(1, figsize= (6,6)) 
ax = axes([0.1, 0.1, 0.8, 0.8]) 


fracs = [60, 40] 并 每 一 块 占 的 比例 ,总 和 为 100 
explode = (0, 0.08) 井 离开 整体 的 距离 ,看 效果 
labels = 'Male'，'Female' 井 对 应 每 一 块 的 标志 


pie(fracs, explode = explode, labels = labels,autopct = '%1.1f% %', shadow= True，startangle = 
90, colors = ("g", "r")) 

titlel( 'Rate of Male and Female') 井 标题 

show() 


输入 完 上 述 命令 后 , 按 回 车 键 , 得 到 如 图 4-9 所 示 的 结果 。 
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图 4-9 复杂 饼 图 


4.7 条 形 图 的 绘制 


相对 于 前 面 介绍 的 箱 图 ,条 形 图 (Bar Chart) 本 身 所 包含 的 信息 相对 较 少 ,但 是 它 仍 然 
为 平均 数 .中 位 数 、 合 计数 或 计数 等 多 种 统计 提供 了 简单 而 又 多 样 化 的 展示 ,所 以 条 形 图 也 
深 受 研究 者 的 喜爱 ,经 常 出 现在 研究 者 的 论文 或 者 调查 报告 中 。 


4.7.1 简单 条 形 图 的 绘制 


例 4-6 具体 数据 见 例 4-1 。 
在 目录 G:\2glkx\data 下 建立 al4-1. xls 数据 文件 后 ,使 用 如 下 命令 读 取 数据 : 


import matplotlib. pyplot as plot 

import Pandas as pd 

import NumPy as np 

df = pd. read excel("G:/2glkx/data/al4 — 1.xls") 
df. head() 


得 到 显示 前 5 条 记录 的 数据 如 下 : 
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EMPID Gender 
0 了 EM001 M 
1 EM002 F 
2 EM003 卫 
3 EM004 M 
4 EM005 F 


在 IPython console 输入 如 下 命令 ,可 以 制作 条 形 图 。 
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var = df. groupby( 'Gender'). Sales. sum( ) 
# grouped sum of sales at Gender level 
fig= plt. figure() 


axl = fig.add subplot(1,1,1) 


axl. set_xlabel( 'Gender') 


axl. set_ylabel( 'Sum of Sales') 
axl. set_title("Gender wise Sum of Sales") 


var. plot (kind = 'bar') 


输入 完 上 述 命 令 后 , 按 回 车 键 ,得 到 如 图 4-10 所 示 的 结果 。 
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图 4-10 条 形 图 1 


Gender 


通过 观察 该 条 形 图 ,可 以 看 出 该 公司 男性 雇员 的 销售 总 额 较 高 ,女性 雇员 的 销售 总 额 


较 低 。 


4.7.2 复杂 条 形 图 的 绘制 
车 我 们 先 按 体质 指数 BMI 分 类 ,在 每 一 类 体质 指数 BMI 中 按 性 别 来 展示 总 销售 额 ,可 


以 输入 如 下 命令 : 


var = df. groupby([ 'BMI', 'Gender']).Sales. sum() 
var. unstack().plot(kind= 'bar', stacked = True, color = [ 'red', 'blue']) 


输入 完 上 述 命 令 后 , 按 回 车 键 ,得 到 如 图 4-11 所 示 的 结果 。 
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图 4-11 复杂 条 形 图 (或 叫 堆积 柱 形 图 ) 


4.8 折线 图 的 绘制 


例 4-7 具体 数据 见 例 4-1 。 
在 目录 G:\2glkx\data 下 建立 al4-1. xls 数据 文件 后 ,使 用 如 下 命令 读 取 数据 : 


import matplotlib. pyplot as plot 

import Pandas as pd 

import NumPy as np 

df = pd. read_excel("G:/2glkx/data/al4 — 1.xls") 


df. head() 
得 到 显示 前 5 条 记录 的 数据 如 下 : 

EMPID Gender RAge Sales BMI Income 
0 EM001 M 34 123 Normal 350 
1 EM002 F 40 114 Overweight 450 
2 EM003 F 37 135 Obesity 169 
3 EM004 M 30 139 Overweight 189 
4 EM005 F 44 117 Overweight 183 


在 IPython console 输入 如 下 命令 ,可 以 制作 曲线 标 绘图 。 


Var = df. groupby( 'BMI'). Sales. sum() 
fig= plt. figure() 

axl = fig.add subplot(1,1,1) 

axl. set_xlabel( 'BMI') 

axl. set_ylabel( 'Sum of Sales') 

axl. set_title( "BMI wise Sum of Sales") 
var. plot(kind = 'line') 


输入 完 上 述 命令 后 , 按 回 车 键 ,得 到 如 图 4-12 所 示 的 结果 。 
从 图 4-12 可 以 看 出 不 同体 质 指数 的 销售 总 额 情况 。 体 质 指数 为 正常 或 过 重 的 雇员 销 
售 总 额 差不多 , 共 510 左右 ,体质 指数 为 过 胖 的 雇员 销售 总 额 较 低 , 共 270 左右 。 
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图 4-12 折线 图 


4.9 ”曲线 标 绘图 的 绘制 


从 形式 上 来 看 ,曲线 标 绘图 与 散 点 图 的 区 别 就 是 以 一 条 线 蔡 代 散 点 标志 ,这 样 做 可 以 更 
加 清晰 直观 地 看 出 数据 走势 ,但 却 无 法 观察 到 每 个 散 点 的 准确 定位 。 从 用 途上 看 ,曲线 标 绘 
图 常用 于 时 间 序 列 分 析 的 数据 预 处 理 , 用 来 观察 变量 随时 间 的 变化 趋势 。 此 外 ,曲线 标 绘 
可 以 同时 反映 多 个 变量 随时 间 的 变化 情况 ,所 以 ,曲线 标 绘图 的 应 用 范围 还 是 非常 广泛 的 。 

例 4-8 某 村 有 每 年 自行 进行 人 口 普 查 的 习惯 ,该 村 近年 的 人 口 数据 如 表 4-2 所 示 。 试 
通过 绘制 曲线 标 绘图 来 分 析 研究 该 村 的 人 口 情况 变化 趋势 以 及 新 生 儿 对 总 人 口 数 的 影响 
程度 。 

表 4-2 某 村 人 口 普查 资料 


年 份 (year) 总 人 数 (total) 新 生 儿 数 (new) 
1997 128 15 
1998 138 16 
1999 144 16 
2000 156 7 
2001 166 21 
2002 175 17 
2003 180 18 
2004 185 17 
2005 189 30 
2006 192 34 
2007 198 37 
2008 201 42 
2009 205 41 
2010 210 39 
2011 215 38 


2012 219 41 
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在 目录 G:\2glkx\data 下 建立 al4-3. xls 数据 文件 后 ,使 用 如 下 的 命令 读 取 数 据 。 


es@@ 


import Pandas as pd 

import NumPY as np 

data = pd. DataFrame(pd. read_excel( 'G:\\2glkx\\data\\al4 — 3.xls ')) 
data. head( ) 


得 到 如 下 前 5 条 记录 的 数据 。 


year total new 
1997 128 15 
1998 138 16 
1999 144 16 
2000 156 147 
2001 166 21 


将 上 面 的 数据 框 对 象 的 数据 放 入 数据 变量 中 。 命 令 如 下 : 


t = np.array(data[ ['year']]) 
np.array(data[[ 'total']]) 
np.array(data[ [ 'new'] ]) 


人 w N PP 口 


x 
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再 输入 如 下 绘图 命令 : 


import pylab as pl 
pl.plot(t, x) 
pl.plot(t, y) 

pl. show() 


输入 完 命令 后 , 按 回 车 键 ,得 到 如 图 4-13 所 示 的 结果 。 
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图 4-13 曲线 标 绘图 1 


通过 观察 曲线 图 4-13, 可 以 看 出 该 村 总 人 数 上 升 的 速度 快 ,新 生 儿 小 幅 上 升 。 

上 面 的 Python 命令 比较 简单 ,分 析 过 程 及 结果 已 经 达到 解决 实际 问题 的 要 求 。 但 
Python 软件 的 强大 之 处 在 于 , 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 
需求 。 例 如 要 给 图 形 增加 标题 给 纵横 坐标 轴 增加 标签 , 则 命令 应 为 : 


import pylab as pl 
pl.plot(t, x) 
pl.plot(t, y) 


pl1.title('Population census') 
pl. xlabel( 'Time') 

pl. ylabel( 'Population') 

pl. show() 
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输入 上 述 命令 后 , 按 回 车 键 ,得 到 如 图 4-14 所 示 的 结果 。 
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图 4-14 曲线 标 绘图 2 


4.10 连 线 标 绘图 的 绘制 


在 上 节 中 我 们 提 到 的 曲线 标 绘图 用 一 条 线 来 代替 散 点 标志 ,可 以 更 加 清晰 直观 地 看 出 
数据 走势 ,但 却 无 法 观察 到 每 个 散 点 的 准确 定位 。 如 何 做 到 既 可 以 满足 观测 数据 走势 的 需 
要 ,又 能 实现 每 个 散 点 的 准确 定位 呢 ? Python 的 连 线 标 绘图 就 可 以 解决 这 个 问题 。 

例 4-9 1998 一 2015 年 期 间 ,我 国 上 市 公司 的 数量 情况 如 表 4-3 所 示 。 试 通过 绘制 连 
线 标 绘图 来 分 析 研 究 我 国 上 市 公司 数量 的 变化 情况 。 


表 4-3 ”我国 上 市 公司 的 数量 情况 


年 份 上 市 公司 数量 年 份 上 市 公司 数量 
1998 851 2007 1550 
1999 949 2008 1625 
2000 1088 2009 1718 
2001 1160 2010 2063 
2002 1224 2011 2342 
2003 1287 2012 2494 
2004 1377 2013 2493 
2005 1381 2014 2631 
2006 1434 2015 2809 

使 用 如 下 的 命令 读 取 数据 。 


import Pandas as pd 
import NumPy as np 
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@ data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al4 — 4.xl1s')) 
© data. head( ) 
三 
得 到 如 下 前 5 条 记录 的 数据 。 
Year number 
0 1998 851 
1 1999 949 
2 2000 1088 
3 2001 1160 
4 2002 1224 


将 上 面 的 数据 框 对 象 的 数据 放 入 数据 变量 中 。 命 令 如 下 : 


t = np.array(data[[ 'year']]) 
x = np.array(data[[ 'number']]) 


再 输入 如 下 绘图 命令 ; 


import pylab as pl 

pl.plot(t, x) 

pl.title('1998 - 2015 of A listed companies in China') 
pl.xlabel( 'Time') 

pl. ylabel( 'Companies numbers') 

pl. show() 


输入 完 命令 后 , 按 回 车 键 ,得 到 如 图 4-15 所 示 的 结果 。 
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图 4-15 连 线 标 绘图 


通过 观察 连 线 标 绘图 4-15 ,可 以 看 出 随 着 年 份 的 增加 ,中 国 A 股市 场 的 上 市 公司 数目 
基本 上 逐年 增加 ,除了 2012 年 到 2013 年 有 点 小 幅 下 降 。 
若 要 是 上 面 的 连 线 画 成 点 ,而 非 连 线 , 则 命令 如 下 : 


import Pandas as pd 

import NumPY as np 

import pylab as pl 

data = pd. DataFrame(pd. read_excel( 'G:\\2glkx\\data\\al4 — 4.xl1s')) 
data. head( ) 
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t = np.array(data[[ 'year']]) © 
x= np.array(data[ ['number']]) @ 


import pylab as pl 

pl.plot(t, x, 'ro') 

pl.title('1998 — 2015 of A listed companies in China') 
pl.xlabel( 'Time') 

pl. ylabel( 'Companies numbers') 

pl. show() 


输入 完 命令 后 , 按 回 车 键 ,得 到 如 图 4-16 所 示 的 结果 。 
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图 4-16 点 图 
通过 观察 图 4-16 的 点 图 ,也 可 以 看 出 随 着 年 份 的 增加 ,中 国 A 股市 场 的 上 市 公司 数目 


基本 上 逐年 增加 ,除了 2012 年 到 2013 年 有 点 小 幅 下 降 。 


4.11 复杂 图 形 的 绘制 


虽然 Matplotlib 主要 专注 于 绘图 ,并 且 主 要 是 二 维 的 图 形 , 但 是 它 也 有 一 些 不 同 的 扩 


展 ,能 让 我 们 在 地 理 图 上 绘图 ,让 我 们 把 Excel 和 3D 图 表 结 合 起 来 。 在 Matplotlib 的 世界 
里 ,这 些 扩展 叫做 工具 包 (toolkits)。 比 较 流行 的 工具 包 有 Basemap、GTK 工具 、Excel 工 
具 、Natgrid、AxesGrid 和 Mplot3d。 


3D 


本 节 探 讨 关 于 mplot3d 的 更 多 功能 。mpl_toolkits. mplot3 工具 包 提 供 了 一 些 基 本 的 


绘图 功能 ,其 支持 的 图 表 类 型 包括 散 点 图 (scatter) 、 曲 面 图 (surf) 、 线 图 (line) 和 网 格 图 


(mesh) 。 虽 然 mplot3d 不 是 一 个 最 好 的 3D 图 形 绘制 库 ,但 它 是 伴随 着 Matplotlib 产生 的 。 


我 们 现在 需要 创建 一 个 图 表 并 把 想 要 的 坐标 轴 添 加 到 上 面 ,但 不 同 的 是 我 们 为 图 表 指 


定 的 是 3D 视图 ,并 且 添 加 的 坐标 轴 是 Axes3D。 


检 


现在 ,我 们 可 以 使 用 几乎 相同 的 函数 来 绘图 。 当 然 , 函 数 的 参数 是 不 同 的 ,需要 为 3 个 


坐标 轴 提 供 数据 。 例 如 ,我 们 要 为 函数 mpl_toolkits. mplot3d. Axes3D. plot 指定 xs、ys、zs 


和 zdir 参数 。 其 他 的 参数 则 直接 传 给 matplotlib. axes. Axes. plot。 


下 面 解 释 一 下 这 些 特 定 的 参数 : 
(1) xs 和 ys: x 轴 和 y 轴 坐标 ; 
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和 (2) zs: 这 是 z 轴 的 坐标 值 ,可 以 是 所 有 点 对 应 一 个 值 ,或 者 是 每 个 点 对 应 一 个 值 ; 
. (3) zdir: 决定 哪个 坐标 轴 作为 z 轴 的 维度 (通常 是 zs, 但 是 也 可 以 是 xs 或 者 ys) 。 
要 注意 的 是 : 模块 mpl_toolkits. mplot3d. art3d 包含 了 3D artist 代码 和 将 2D artists 
转化 为 3D 版 本 的 函数 。 在 该 模块 中 有 一 个 rotate_axes 方法 ,该 方法 可 以 被 添加 到 
Axes3D 中 来 对 坐标 重新 排序 ,这 样 坐标 轴 就 与 zdir 一 起 旋转 了 。zdir 默认 值 为 z。 在 坐标 
轴 前 加 一 个 “一 ”会 进行 反 转 转换 ,这 样 一 来 ,zdir 的 值 就 可 以 是 x、 一 x、y、 一 y.z 或 者 一 z。 
以 下 代码 展示 了 我 们 所 解释 的 内 容 。 


import random 
import NumPy as np 
import matplotlib as mpl 
import matplotlib. pyplot as plt 
import matplotlib. dates as mdates 
from mpl_toolkits. mplot3d import Axes3D 
mpl. rcParams[ 'font. size'] = 10 
fig = plt.figure() 
ax = fig.add subplot(111, projection= '3d') 
for z in [2011, 2012, 2013, 2014]: 
xs = xrange(1,13) 
ys = 1000 * np.randonm. rand(12) 
color =plt.cm.Set2(random. choice(xrange(plt. cm. Set2. N))) 
ax. bar(xs, ys, zs=z, zdir= 'y', color = color, alpha = 0.8) 
ax. xaxis. set_major locator(mpl. ticker. FixedLocator(xs)) 
ax. yaxis. set_major_locator(mpl. ticker. FixedLocator(ys)) 
ax. set_xlabel( 'Month') 
ax. set_ylabel( 'Year') 
ax. set_zlabel('Sales Net [usd]') 
plt. show( ) 


输入 完 上 述 命 令 后 , 按 回 车 键 ,得 到 如 图 4-17 所 示 的 结果 。 


图 4-17 三 维 图 


在 下 面 的 示例 代码 中 ,我 们 绘制 了 著名 的 Pringle 函数 的 三 辟 面 图 ,在 数学 上 叫 双 曲 面 
抛物 线 (hyperbolic paraboloid) 。 


from mpl_toolkits. mplot3d import Axes3D 
from matplotlib import cm 

import matplotlib. pyplot as plt 

import NumPy as np 
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n angles = 36 


nradii= 8 

# An array of radii 

# Does not include radius r=0, this is to eliminate duplicate points 
radii = np.linspace(0.125, 1.0, n radii) 

# Anarray of angles 

angles = np.linspace(0, 2 * np.pi, n angles, endpoint = False) 

# Repeat all angles for each radius 

angles = np.repeat(angles[..., np.newaxis], n radii, axis=1) 

# Convert polar (radii, angles) coords to cartesian (x, y) coords 

# (0,0)is added here. There are no duplicate points in the (x, y)plane 
x = np.append(0, (radii * np.cos(angles)).flatten()) 

y = np.append(0, (radii * np.sin(angles)).flatten()) 

# Pringle surface 

z= np.sin(—-x * y) 

fig = plt. figure() 

ax = fig.gca(projection= '3d') 

ax. plot_trisurf(x, y, z, cmap= cm. jet, linewidth= 0.2) 

plt. show( ) 


上 面 的 代码 生成 如 图 4-18 所 示 的 图 形 。 
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4-18 三 枫 面 图 ( 双 曲 面 抛 物 线 ) 


4.12 关于 绘图 中 显示 中 文 的 问题 处 理 


前 面 我 们 绘制 的 图 形 , 都 不 能 显示 中 文 。 因 为 Matplotlib 的 缺 省 配置 文件 中 所 使 用 的 
字体 无 法 正确 显示 中 文 。 为 了 在 绘图 中 能 正确 显示 中 文 ,可 以 有 几 种 解决 方案 。 

(1) 在 程序 中 直接 指定 字体 ; 

(2) 在 程序 开头 修改 配置 字典 rcParams; 

(3) 修改 配置 文件 。 

下 面 代码 实现 了 通过 修改 字体 实现 绘图 中 显示 中 文 的 问题 。 

from matplotlib. font_manager import FontProperties 

import matplotlib. pyplot as plt 


import NumPY as np 
font = FontProperties(fname = r"c:\windows\fonts\simsun. ttc", size= 14) 
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t = np.linspace(0, 10, 1000) 

Y = np.sin(t) 

plt. plot(t, y) 

plt.xlabel(u" 时 间 "，fontproperties = font) 

plt. Ylabel(u" 振 幅 "，fontproperties = font) 

plt.title(u" 正 弦 波 "，fontproperties = font) 
plt. show() 


上 面 的 代码 生成 如 图 4-19 所 示 的 图 形 。 


1.0 


时 间 
图 4-19 显示 中 文 的 图 形 


练 习 题 


对 本 章 例 题 中 的 数据 文件 ,使 用 Python 的 绘图 功能 重新 操作 一 遍 。 
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到 
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在 讨论 概率 统计 分 布 之 前 , 先 说 说 什么 是 随机 变量 (random variable) 。 随 机 变量 是 对 
一 次 试验 结果 的 量化 。 例 如 ,一 个 表示 抛 硬币 结果 的 随机 变量 可 以 表示 成 X={1 如 果 正 面 
朝 上 ,2 如 果 反 面 朝 上 }。 

随机 变量 是 一 个 变量 , 它 取 值 于 一 组 可 能 的 值 (离散 或 连续 的 ) ,并 服从 某 种 随机 性 。 随 
机 变量 的 每 个 可 能 的 取 值 都 与 一 个 概率 相关 。 随 机 变量 的 所 有 可 能 取 值 和 与 之 相关 联 的 概 
率 就 被 称 为 概率 分 布 (probability distributrion)。 

概率 分 布 有 两 种 类 型 : 离散 (discrete) 概 率 分 布 和 连续 (continuous) 概 率 分 布 。 离 散 概 
率 分 布 也 称 为 概率 质量 函数 (probability mass function) 。 离 散 概率 分 布 的 例子 有 伯 努 利 分 
布 (Bernoulli distribution )、 二 项 分 布 (binomial distribution )、 泊 松 分 布 (Poisson 
distribution) 和 几何 分 布 (geometric distribution) 等。 连续 概率 分 布 也 称 为 概率 密度 函数 
(probability density function) ,它们 是 具有 连续 取 值 (例如 一 条 实 线 上 的 值 ) 的 函数 。 正 态 
分 布 (normal distribution) 指数 分 布 (exponential distribution) 和 8B 分 布 (beta distribution) 
等 都 属于 连续 概率 分 布 。 若 想 了 解 更 多 关于 离散 和 连续 随机 变量 的 知识 ,可 以 阅读 概率 分 
布 的 相关 书籍 。 


5.1 二 项 分 布 


服从 二 项 分 布 (binomial distribution) 的 随机 变量 X 表示 在 ”个 独立 的 是 / 非 试验 中 成 
功 的 次 数 ,其 中 每 次 试验 的 成 功 概率 为 p。 


nl 


天 nk 
P(X 一 人 ) Green p) 


E(X)= np, var(X) = np(l1—p) 
E(X) 表 示 分 布 的 期 望 或 平均 值 ,var(X) 表 示 分 布 的 方差 。 
如 果 想 知道 每 个 函数 的 原理 ,可 以 在 IPython 笔记 本 中 使 用 help file 命令 。 键 入 stats. 
binom, 可 以 了 解 二 项 分 布 函 数 binom 的 更 多 信息 。 
例如 : 抛掷 10 次 硬币 ,恰好 两 次 正面 朝 上 的 概率 是 多 少 ? 
假设 在 该 试验 中 正面 朝 上 的 概率 为 0. 3. 这 意味 着 平均 来 说 ,可 以 期 待 有 3 次 是 硬币 正 
面 彰 上 的 。 定 义 掷 硬币 的 所 有 可 能 结果 为 kk 王 np. arange(0,11): 可 能 观测 到 0 次 正面 朝 
上 、1 次 正面 朝 上 ,一 直到 10 次 正面 朝 上 。 使 用 stats. binom. pmf 计算 每 次 观测 的 概率 质量 
函数 。 它 返回 一 个 含有 11 个 元 素 的 列表 (list) ,这 些 元 素 表 示 与 每 个 观测 相关 联 的 概率 值 。 
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可 以 使 用 .rvs 函数 模拟 一 个 二 项 随机 变量 ,其 中 参数 size 指定 你 要 进行 模拟 的 次 数 。 
让 Python 返回 10000 个 参数 为 n 和 zp 的 二 项 式 随机 变量 。 将 输出 这 些 随 机 变量 的 平均 值 
和 标准 差 ,然后 画 出 所 有 的 随机 变量 的 直方 图 。 


import NumPy as np 

from NumPY. random import randn 
import SciPpy 

n=10 

p=0.3 

k= np.arange(0,21) 

binomial = stats. binom. pmf (k,n,p) 
binomial 


得 到 如 下 结果 : 


array([ 2.82475249e-02, 1.2106082le-01, 2.33474440e-01, 
2.66827932e-- 01， 2.00120949e-01, 1.02919345e—01, 


3.67569090e-02, 9.00169200e-03, 1.44670050e— 03, 
1.37781000e- 04， 5.90490000e-06, 0.00000000e+00, 
0.00000000e+00, 0.00000000e+ 00， 0.00000000e+00, 
0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 
0.00000000e+00, 0.00000000e+00, 0.00000000e+ 00]) 


然后 输入 如 下 代码 : 


import matplotlib. pyplot as plt 

plt. plot(k, binomial, 'o0— ') 

plt.title('binomial,n= $%i,p= %.2f' % (n,p),fontsize= 15) 
plt. xlabel( 'Number of successes', fontsize = 15) 

plt. ylabel( 'Probability successes', fontsize = 15) 

plt. show( ) 


执行 上 述 代码 后 ,得 到 如 图 5-1 所 示 的 结果 。 
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图 5-1 二 项 分 布 


可 以 使 用 . rvs 函数 模拟 一 个 二 项 随机 变量 ,其 中 参数 size 指定 要 进行 模拟 的 次 数 。 让 
Python 返回 10000 个 参数 为 n 和 pp 的 二 项 式 随机 变量 。 
Python 代码 如 下 : 
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binom_sim = data = stats.binom.rvs(n=10,p=0.3,size=10000) pd 
int "Meani So W np. nenlbihoa ainy © 
print "SD: % g" % np.std(binom sim,ddof =1) 
plt. hist(binom sim,bins= 10,normed= True) 
plt. xlabel("x") 

plt. ylabel("density") 

plt. show() 


执行 上 述 代码 后 ,将 输出 这 些 随机 变量 的 平均 值 和 标准 差 , 然 后 画 出 所 有 的 随机 变量 的 
直方 图 ,如 图 5-2 所 示 。 
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图 5-2 二 项 分 布 直方 图 


5.2 泊 松 分 布 


一 个 服从 泊 松 分 布 (Poisson distribution) 的 随机 变量 X, 表 示 在 具有 比率 参数 (rate 
parameter)4 的 一 段 固定 时 间 间 隔 内 ,事件 发 生 的 次 数 。 参 数 4 告诉 你 该 事件 发 生 的 比率 。 
随机 变量 X 的 平均 值 和 方差 都 是 4。 
Xe ， 

k! 

泊 松 分 布 的 实例 : 已 知 某 路 口 发 生 事故 的 比率 是 每 天 2 次 ,那么 在 此 处 一 天 内 发 生 4 
次 事故 的 概率 是 多 少 ? 

考虑 这 个 平均 每 天 发 生 2 起 事故 的 实例 。 泊 松 分 布 的 实现 和 二 项 分 布 有 些 类 似 ,在 泊 
松 分 布 中 需要 指定 比率 参数 。 泊 松 分 布 的 输出 是 一 个 数列 ,包含 了 发 生 0 次 .1 次 .2 次 , 直 
到 10 次 事故 的 概率 。 

Python 代码 如 下 : 


P(X=&k)= E(X)=A, var(X) 一 人 


rate=2 

n= np.arange(0,10) 

y= stats. poisson. pmf(n, rate) 
6 
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es@@ 


得 到 如 下 结果 : 


array([ 1.35335283e-01, 2.70670566e—01, 2.70670566e—01, 
1.80447044e—01, 9.02235222e- 02， 3.60894089e—02, 
1.20298030e—02, 3.43708656e- 03， 8.59271640e 一 04,， 
1.90949253e— 04]) 

import matplotlib. pyplot as plt 

plt.plot(y,'o—') 

plt. show() 


执行 上 述 代码 ,得 到 如 图 5-3 所 示 的 结果 。 


0.30 


0.25 


0.20 


0.15 


图 5-3 泊 松 分 布 


从 图 5-3 可 以 看 到 ,事故 次 数 的 峰值 在 均值 附近 。 平 均 来 说 ,可 以 预计 事件 发 生 的 次 数 
为 X*。 尝 试 不 同 的 4 入 的 值 ,然后 看 看 分 布 的 形状 是 怎么 变化 的 。 
现在 我 来 模拟 1000 个 服从 泊 松 分 布 的 随机 变量 。Python 代码 如 下 : 


data = stats. poisson. rvs(mu= 2, loc = 0, size = 1000) 
print "Mean: %$g" $% np.mean(data) 

print "SD: %g" % np.std(data, ddof =1) 

plt. hist(data, bins = 10, normed = True) 

plt. xlabel ("numbers of accidents") 

plt. ylabel("simulating poisson random variable") 
plt. show( ) 


执行 上 述 代 码 后 ,将 输出 这 些 随机 变量 的 平均 值 和 标准 差 ,然后 画 出 所 有 的 随机 变量 的 
直方 图 ,如 图 5-4 所 示 。 
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图 5-4 泊 松 分 布 直方 图 
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二 
Mean:2.02 


SD:1.39339 pd 


5.3 正 态 分 布 


正 态 分 布 (normal distribution) 是 一 种 连续 分 布 ,其 函数 可 以 在 实 线 上 的 任何 地 方 取 
值 。 正 态 分 布 由 两 个 参数 描述 : 分 布 的 平均 值 y 和 方差 o?。 


Pl(zx; p»0) | ~ 2 
E(X)=y, var(X) 一 吧 
正 态 分 布 的 取 值 可 以 从 负 无 穷 到 正 无 穷 。 可 以 用 stats. norm. pdf 得 到 正 态 分 布 的 概 
率 密度 函数 。 正 态 分 布 的 Python 代码 如 下 : 


mu=0 

sigma=1 

x= np.arange( 一 5,5,0.1) 

y= stats. norm. pdf (x,0,1) 

plt. plot(x, y) 

plt.title( 'nomal, $ \mu$ = %.1f, $ sigma^2$ = %.1f' % (mu,sigma), fontsize=15) 
plt.xlabel("x") 

plt. ylabel("Probability density") 

plt. show() 


执行 上 述 代 码 ,得 到 如 图 5-5 所 示 的 结果 。 


nomal, k=0.0, sigma’=1.0 
Tr 


probability density 
S 
已 
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关口 


图 5-5 正 态 分 布 图 


现在 来 模拟 1000 个 均值 为 0.0, 标 准 差 为 1.0 的 服从 正 态 分 布 的 随机 变量 。Python 代 
码 如 下 : 


data = stats.norm.rvs(loc=0.0, scale=1.0, size= 1000) 
print "Mean: %g" % np.mean(data) 

print "SD: %g" % np.std(data, ddof =1) 

plt. hist(data, bins = 20, normed = True) 

plt. xlabel( "numbers of accidents") 
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plt. ylabel ("Norm distribution") 

plt. show() 

执行 上 述 代 码 后 ,将 输出 这 些 随机 变量 的 平均 值 和 标准 差 ,然后 画 出 所 有 的 随机 变量 的 
直方 图 ,如 图 5-6 所 示 。 


es@@ 


Mean: — 0.00227837 
SD:1.04123 


Norm distribution 


= 3 一 2 =] 0 1 2 3 4 
numbers of accidents 


5-6 正 态 分 布 直方 图 


5.4 分 布 


BB 分布 (beta distribution) 是 一 个 取 值 在 [0, 1] 之 间 的 连续 分 布 , 它 由 两 个 形态 参数 a 和 


8 的 取 值 所 描述 。 
gy — TT(atp) sap ypt 
P(xz,a,B) TT (1—z)F!, zxzELO,l],a>0.8>0 
a es op 
E(x) a+p’ var(Z) GF sy 


B 分 布 的 形状 取决 于 a 和 有 的 值 。 贝 叶 斯 分 析 中 大 量 使 用 了 8 分布 。 
B 分 布 的 直方 图 Python 代码 如 下 : 


a=0.5 

b=0.5 

x= np.arange(0.01,1,0.01) 

y= stats. beta. pdf (x, a, b) 

plt. plot(x, y) 

print 'Beta:a= %.1f,b= %.1f's%,(a,b) 
plt. xlabel ("x") 

plt. ylabel("Probability density") 

plt. show() 


执行 上 述 代 码 ,得 到 如 图 5-7 所 示 的 结果 。 
尝试 不 同 的 a 和 8B 取 值 ,看 看 分 布 的 形状 是 如 何 变 化 的 。 
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图 5-7 分 布 图 


5.5 均匀 分 布 


将 参数 a 和 8 都 设置 为 1 时 ,该 分 布 又 被 称 为 均匀 分 布 (uniform distribution) 。Python 
代码 如 下 : 


a=1.0 

b=1.0 

x= np.arange(0.01,1,0.01) 

y= stats. beta. pdf (x,a, b) 

plt. plot(x, y) 

plt.title('Beta:a= $%.1f,b= %.1f' % (a,b)) 
plt. xlabel("x") 

plt. ylabel("Probability density") 

plt. show( ) 


执行 上 述 代 码 ,得 到 如 图 5-8 所 示 的 结果 。 
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图 5-8 均匀 分 布 图 


data = randint(0, 10, size= 10) 

#data= stats.norm.rvs(loc=0.0, scale=1.0, size=1000) 
print "Mean: %g" $% np.mean(data) 

print "SD: %g" % np.std(data, ddof =1) 


@ 经 济 金 融 数据 分 析 及 其 Python 应 用 


plt. hist(data, bins = 20, normed = True) 
plt. xlabel( "numbers of accidents") 
plt. ylabel( "Norm distribution") 

plt. show() 


5.6 指数 分 布 


指数 分 布 (exponential distribution) 是 一 种 连续 概率 分 布 ,用 于 表示 独立 随机 事件 发 生 
的 时 间 间 隔 。 比 如 旅客 进入 机 场 的 时 间 间 隔 , 打 进 客服 中 心 电 话 的 时 间 间 隔 、. 中 文 维 基 百 科 
新 条 目 出 现 的 时 间 间 隔 等 。 

Pl(z; 24)=Ahe*, E(X)= 1/A, var(X) = 1/X 
将 参数 设置 为 0.5, 并 将 zx 的 取 值 范围 设置 为 [0,15]。Python 代码 如 下 : 


lambd= 0.5 

x= np.arange(0,15,0.1) 

y= lambd * np. exp( — lambd * x) 

plt. plot(x, y) 

plt. title( 'Exponential:: $ \lambda$ = % .2f' % lambd) 
plt.xlabel("x") 

plt. ylabel("Probability density") 

plt. show( ) 


执行 上 述 代码 ,得 到 如 图 5-9 所 示 的 结果 。 
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5-9 指数 分 布 图 


接着 ,在 指数 分 布下 模拟 1000 个 随机 变量 。scale 参数 表示 4 的 倒数 。 函 数 np. std 中 ， 
参数 ddof 等 于 标准 偏差 除 以 n 一 1 的 值 。 
Python 代码 如 下 : 


data = stats.norm.rvs(loc=0.0, scale=1.0, size=1000) 
print "Mean: %g" % np.mean(data) 

print "SD: %g" % np.std(data, ddof =1) 

plt. hist(data, bins = 20, normed = True) 

plt. xlabel("numbers of accidents") 

plt. ylabel("Norm distribution") 

plt. show() 
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执行 上 述 代码 后 ,将 输出 这 些 随 机 变量 的 平均 值 和 标准 差 , 然 后 画 出 所 有 的 随机 变量 的 
直方 图 ,如 图 5-10 所 示 。 


Mean:1.92958 
SD:1.85039 


simulating Exponential random variables 


Be 
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图 5-10 ”指数 分 布 直方 图 


练 习 题 


对 本 章 的 各 种 分 布 尝试 不 同 的 参数 绘制 图 形 。 


描述 性 统计 的 Python 应 用 


统计 就 是 搜集 数据 ,让 我 们 知道 总 体 状 况 怎 么 样 。 它 更 重要 的 意义 在 于 数据 分 析 , 即 作 
出 判断 和 预测 。 

描述 性 统计 是 对 数据 的 性 质 进 行 描述 ,例如 : 均值 描述 了 数据 的 中 心 趋势 ,方差 描述 了 
数据 的 离散 程度 。 

推断 统计 是 用 来 作 判断 和 预测 的 。 例 如 ,假设 检验 就 是 用 来 作 判 断 的 ,回归 分 析 和 时 间 
序列 分 析 是 用 来 作 预 测 的 。 


6.1 描述 性 统计 量 


6.1.1 总 体 和 样本 


总 体 是 我 们 所 要 研究 的 所 有 个 体 的 集合 。 如 中 国人 的 身高 集合 就 是 一 个 总 体 , 从 中 抽 
取 100 人 的 身高 就 是 一 个 样本 。 

我 们 研究 一 个 总 体 ,通常 不 是 要 了 解 每 一 个 个 体 的 情况 ,而 是 想 要 知道 某 些 总 体 参 数 。 
例如 想 中 国人 的 平均 身高 是 多 少 ,这 样 就 可 以 与 10 年 前 的 平均 身高 作 比 较 。 

但 由 于 种 种 原因 ,我 们 通常 不 能 得 到 总 体 中 所 有 个 体 的 数值 ,而 只 能 抽取 一 个 样本 ,来 
计算 样本 统计 量 。 样 本 统计 量 是 样本 中 个 体 数值 的 函数 ,例如 样本 均值 .样本 方差 等 。 例 如 
我 们 抽取 100 个 中 国人 ,分 别 量 了 他 们 的 身高 ,计算 了 他 们 的 平均 身高 ,用 来 估计 中 国人 总 
体 的 平均 身高 。 统 计 过 程 用 图 形 表示 如 图 6-1 所 示 。 


推断 


计算 


统计 量 


6-1 统计 过 程 


6.1.2 度量 尺度 


为 了 选择 一 个 恰当 的 统计 方法 来 描述 和 分 析 数 据 ,我 们 需要 区 分 不 同 的 度量 尺度 (或 测 
量 标准 ) 。 数 据 尺 度 有 强 有 弱 ,但 不 外 乎 4 种 : 名义、 顺序 .区间 和 比率 。 
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名 义 尺度 : 代表 最 简单 的 度量 标准 , 它 对 数据 进行 分 类 但 不 进行 排序 。 如 用 1 表示 男 ， 
0 表示 女 。 

顺序 尺度 : 代表 稍微 强 一 点 的 度量 标准 , 它 根据 某 种 特征 排序 ,将 数据 分 成 不 同类 别 。 

间隔 尺度 : 它 比 排序 尺度 更 进一步 ,使 得 数据 之 间 间 隔 相等 。 不 仅 能 比较 大 小 ,还 能 做 
加 减 运算 ,但 不 能 做 乘除 运算 。 例 如 ,上 海 温度 是 20C ,北京 是 10C ,可 以 说 上 海 温度 比 北 
京 温度 高 10'C ,但 不 能 说 上 海 的 温度 是 北京 的 两 倍 。 

比例 扩 度 。 它 比 间隔 尺度 更 进一步 , 它 增 加 了 一 个 绝对 零点 ,不 仅 能 比较 大 小 ,能 做 加 
减 运算 ,还 能 做 乘除 运算 。 例 如 人 的 身高 、 债 券 的 价格 等 。 

以 上 4 种 度量 尺度 是 按照 由 弱 到 强 的 顺序 排列 的 。 


6.1.3 频数 分 布 


频数 分 布 是 指 一 种 用 表格 列 示 数 据 的 方法 , 它 用 较 少 的 区 间 对 数据 总 体 进行 概括 。 实 
际 落 入 一 个 给 定 区 间 的 观测 值 数量 称 为 绝对 频数 ,或 简称 频数 。 每 个 区 间 的 绝对 频数 除 以 
整个 样本 观测 值 的 数量 。 

建立 一 个 频数 分 布 的 基本 步骤 如 下 : 

(1) 将 数据 以 升序 排列 。 

(2) 计算 数据 的 极 差 ,定义 极 差 = 最 大 一 最 小 。 

(3) 确定 频数 分 布 包含 的 区 间 数 &。 

(4) 确定 区 间 的 宽度 ( 极 差 /&)。 

(5) 不 断 地 在 数据 最 小 值 上 加 上 区 间 宽 度 来 确定 各 个 区 间 的 端点 ,此 过 程 在 到 达 包 含 
最 大 值 的 区 间 时 停止 。 

(6) 计算 落 入 每 个 区 间 中 观测 值 的 个 数 。 

(7) 建立 一 个 列 示 落 入 从 小 到 大 排列 的 每 个 区 间 中 观测 值 数量 的 表格 。 

例如 , 某 股票 过 去 25 年 的 年 收益 率 如 下 (通过 排序 ) : 

28%5—22%5— 19%3— 18%s—12%—9%5—8%—6%s— 1 1 2 Ws 
4%,5%,6%,7%,11%,15% ,16% ,17% ,18% ,20% ,23% ,26% ,38%。 

现在 我 们 看 看 这 个 股票 的 收益 率 分 布 情况 。 

我 们 发 现 , 收 益 率 位 于 一 30% 一 40% 之 间 。 将 一 30% 一 40% 区 间 分 段 , 每 10% 为 一 段 ， 
共 分 7 段 。 

最 后 得 到 的 结果 如 表 6-1 所 示 。 


表 6-1 频 数 表 


区 间 段 绝对 频数 相对 频数 累积 绝对 频数 累积 相对 频数 


[—30%,—20%) 2 0.08 2 0.08 

[—20%,—10%) 3 心志 5 0.2 

[一 10% ,一 0%) 4 0. 16 9 0.36 
[0% ,10%) vi 0.28 16 0.64 
[10% ,20%) 和 0.2 21 0.84 
[20% ,30%) 3 0.12 24 0.96 
[30% ,40%] 1 0.04 25 1 

总 计 25 h 
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频数 数据 的 柱状 图 如 图 6-2 所 示 。 
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图 6-2 ”频数 数据 的 柱状 图 
相对 频数 的 折线 图 如 图 6-3 所 示 。 
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图 6-3 相对 频数 的 折线 图 
6.1.4 集中 趋势 的 度量 


拿 到 一 组 数据 ,我 们 首先 想 知 道 这 组 数据 的 中 心 位 置 在 哪里 , 即 数据 围绕 什么 中 心 数 值 
波动 ,这 称 为 集中 趋势 的 度量 。 通 常用 均值 来 度量 ,均值 有 如 下 4 种 。 


1. 算术 平均 
总 体 均 值 A= NOx 
样本 均值 z= 1 
2. 几何 平均 

本 


在 金融 学 中 的 绩效 平均 时 ,历年 收益 率 的 平均 收益 率 应 该 用 几何 平均 率 , 即 时 间 加 权 收 
益 率 , 它 不 受 投资 项 目 资金 流入 和 流出 的 影响 。 几 何平 均 收益 率 为 + 年 收益 率 分 别 加 1 之 
后 相 乘 ,再 开 上 次 方 ,然后 减 去 1。 公式 为 : 


R, = VITR)ITR 7)…(CI 十 RD) 一 1 
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3. 加 权 平 均 贸 
名 


Fe pe 

其 中 ww 为 zx; 的 权重 , 且 权 重 之 和 为 1。 当 所 有 权重 相等 时 ,加 权 平均 即 为 算术 平均 。 

加 权 平 均 在 金融 学 中 的 应 用 : 一 个 资产 组 合 的 收益 率 ,等 于 其 中 各 个 资产 收益 率 的 加 权 平 
均 , 权 重 为 各 个 资产 市 值 占 总 资产 组 合 市 值 的 百分比 。 


4. 调和 平均 
= 5 工 
当 观 测 值 不 全 相等 时 ,有 : 调和 平均 二 几何 平均 二 算术 平均 。 
6.1.5 中 位 数 


如 果 有 一 组 数据 ,把 它 按 从 小 到 大 的 顺序 排列 ,将 这 一 数列 等 分 成 两 份 ,这 个 分 位 数 称 
为 中 位 数 ,对 于 奇数 个 数组 成 的 数列 ,中 位 数 就 是 中 间 的 那个 数 , 对 于 偶数 个 数组 成 的 数列 ， 
中 位 数 就 是 中 间 的 那个 两 个 数 相 加 除 以 2。 

由 于 均值 受 异 常 值 的 影响 较 大 ,因此 用 均值 来 估计 中 心 趋势 显得 很 不 稳定 ,而 中 位 数 的 
优点 是 受 异 常 值 影响 较 小 ,估计 量 稳定 。 


6.1.6 众 数 


众 数 就 是 一 组 数据 中 出 现 次 数 最 多 的 数 。 

如 数列 : 1,1,2,2,3,3,3,4,5, 其 众 数 为 3。 

如 数列 : 1,1,1,2,2,3,3,3,4,5, 其 众 数 为 1 和 3。 

如 数列 : 1,2,3,4,5, 没 有 众 数 。 

一 组 数据 可 能 有 一 个 众 数 ,可 能 有 多 个 众 数 ,也 可 能 没有 。 众 数 的 这 一 性 质 使 得 其 使 用 
范围 受到 限制 。 


6.1.7 分 位 数 


如 果 我 们 有 一 组 数据 ,把 它们 按 从 小 到 大 的 顺序 排列 ,分 位 数 就 是 正好 能 将 这 一 数列 等 
分 的 数 。 

将 这 一 数列 等 分 成 两 份 , 这 个 分 位 数 称 为 中 位 数 。 将 这 一 数列 等 分 为 4 份 ,这 3 个 分 位 
数 都 称 为 四 分 位 数 , 它 从 小 到 大 依次 称 作 : 第 1 个 四 分 位 数 、 第 2 个 四 分 位 数 、 第 3 个 四 分 
位 数 。 第 2 个 四 分 位 数 就 是 中 位 数 。 

也 可 以 将 这 一 数列 等 分 成 5 份 ,得 到 4 个 五 分 位 数 。 也 可 以 将 这 一 数列 等 分 成 10 份 ， 
得 到 9 个 十 分 位 数 。 也 可 以 将 这 一 数列 等 分 成 100 份 ,得 到 99 个 百 分 位 数 。 

我 们 可 以 把 所 有 的 分 位 数 都 转换 成 百分数 。 例 如 ,第 2 个 五 分 位 数 就 是 第 40 个 百 分 位 
数 ,第 3 个 四 分 位 数 就 是 第 75 个 百 分 位 数 。 这 样 ,我 们 就 可 以 用 以 下 公式 来 计算 分 位 数 ， 

L, = (n+1)y/100 


©@ 经 济 金 融 数 据 分 析 及 其 Python 应 用 


其 中 ， 

n: 数列 中 一 共有 多 少 个 数 ; 

y: 第 几 个 百分数 ; 

Lv: 结果 是 数列 的 第 几 个 数 。 
例如 : 

有 这 样 一 组 数 : 2,5,7,9,12,16,21,34,39, 计 算 第 4 个 五 分 位 数 。 

第 4 个 五 分 位 数 就 是 第 80 个 百 分 位 数 ,数列 共有 9 个 数 ,套用 公式 

L, = (n+1)y/100 = (9+1) X80/100=8 

数列 的 第 8 个 数 即 为 34。 

有 这 样 一 组 数列 : 2,5,7,9,12,16,21,34,39,40, 计 算 第 4 个 五 分 位 数 。 

第 4 个 五 分 位 数 就 是 第 80 个 百 分 位 数 ,数列 共有 10 个 数 ,套用 公式 

L, = (n+1)y/100 = (10+1) Xx 80/100 = 8.8 

数列 的 第 8. 8 个 数 是 什么 意思 ,就 是 第 8 个 数 再 往 右 的 0. 8 个 数 , 第 8 个 数 是 34, 第 9 

个 数 是 39, 相 差 5, 那 么 0. 8 个 数 就 是 5X0. 8 王 4, 所 以 34 十 4 一 38, 即 第 4 个 五 分 位 数 是 38。 


6.1.8 离散 程度 的 度量 


知道 了 一 组 数据 的 中 心 位 置 之 后 ,就 想 知道 数据 距离 中 心 位 置 是 远 还 是 近 , 这 称 为 离散 
程度 的 度量 。 在 金融 分 析 中 ,常用 离散 程度 来 衡量 风险 。 


1. 极 差 
极 差 定义 为 
极 差 = 最 大 值 一 最 小 值 


极 差 越 小 ,离散 程度 越 小 。 由 定义 可 知 极 差 只 用 到 了 一 组 数据 中 的 两 个 数据 ,而 忽略 了 
数据 的 分 布 状况 等 许多 有 用 的 信息 ,因此 仅仅 用 极 差 来 度量 离散 程度 显得 很 不 够 。 


2. 平均 绝对 差 
平均 绝对 差 定 义 为 
bp Izi—z 


MAD= 二 
式 中 z 表 示 样 本 的 均值 ,n 表示 样本 中 观测 值 的 数目 。 
3. 总 体 方差 和 总 体 标准 差 


总 体 方差 定义 为 


式 中 ,w 表示 总 体 均值 ,N 表示 总 体 的 规模 。 
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总 体 标准 差 定义 为 时 


式 中 ,px 表示 总 体 均值 ,N 表示 总 体 的 规模 。 
4. 样本 方差 和 样本 标准 差 
样本 方差 定义 为 


式 中 ,z+ 表 示 总 体 均值 ,n 表示 总 体 的 规模 。 
样本 标准 差 定 义 为 


式 中 , 工 表示 总 体 均值 ,， 表示 总 体 的 规模 。 
5. 变异 系数 


变异 系数 CV 定义 为 标准 差 除 以 均值 。 用 公式 表示 为 
CV== 


Sil: 


s 与 + 的 含义 如 上 所 示 。 
6. 偏 度 


偏 度 是 衡量 一 组 数据 左右 偏离 的 程度 。 

左右 对 称 的 分 布 偏 度 为 0。 左右 对 称 的 分 布 ,其 均值 .中 位 数 和 众 数 相等 。 如 图 6-4 所 
示 是 一 个 对 称 的 分 布 。 

如 图 6-5 所 示 是 一 个 非 对 称 的 右 偏 分 布 。 在 右 偏 分 布 中 ,均值 大 于 中 位 数 大 于 众 数 。 


均值 = 中 位 数 = 众 数 众 数 中 位 数 ”均值 


图 6-4 对称 分 布 图 6-5 右 偏 ( 正 偏 ) 分 布 图 
如 图 6-6 所 示 是 一 个 非 对 称 的 左 偏 分 布 。 在 左 偏 分 布 中 ,均值 小 于 中 位 数 小 于 众 数 。 
7. 峰 度 
峰 度 是 衡量 一 组 数据 峰值 高 于 或 低 于 正 态 分 布 的 程度 。 任 何 一 个 正 态 分 布 的 峰 度 为 
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” 3。 如 果 一 个 分 布 的 峰 度 大 于 3 称 为 高 峰 态 ,小 于 3 称 为 低 峰 态 。 
常 把 峰 度 的 数值 减 去 3, 称 为 超额 峰 度 。 同 样 ,任何 一 个 正 态 分 布 的 超额 峰 度 为 0。 如 
果 一 个 分 布 的 超额 峰 度 大 于 0 称 为 高 峰 态 ,小 于 0 称 为 低 峰 态 。 
低 峰 态 高峰 态 与 正 态 分 布 的 对 比如 图 6-7 所 示 ( 虚 线 为 正 态 分 布 )。 


均值 中 位 数 众 数 


尖峰 分 布 
图 6-6 左 偏 ( 负 偏 ) 分 布 图 图 6-7 低 峰 态 、 高 峰 态 与 正 态 分 布 的 对 比 图 


6.2 描述 性 统计 的 Python 工具 


Python 中 的 Pandas 常用 的 统计 方法 如 表 6-2 所 示 。 
表 6-2 Pandas 常用 的 统计 方法 


函数 名 称 作 用 
count 非 NA 值 的 数量 
describe 针对 Series 或 DF 的 列 计算 汇总 统计 
min, max 最 小 值 和 最 大 值 
argmin, argmax 最 小 值 和 最 大 值 的 索引 位 置 (整数 ) 
idxmin, idxmax 最 小 值 和 最 大 值 的 索引 值 
quantile 样本 分 位 数 (0 到 1) 
sum 求 和 
mean 均值 
median 中 位 数 
mad 根据 均值 计算 平均 绝对 离 差 
var 方差 
std 标准 差 
skew 样本 值 的 偏 度 (三 阶 矩 7 
kurt 样本 值 的 峰 度 ( 四 阶 矩 ) 
cumsum 样本 值 的 累计 和 
cummin, cummax 样本 值 的 累计 最 大 值 和 累计 最 小 值 
cumprod 样本 值 的 累计 积 
diff 计算 一 阶 差 分 (对 时 间 序 列 很 有 用 ) 


pct_change 计算 百分数 变化 
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Python 中 NumPy 和 SciPy 常用 的 统计 方法 如 表 6-3 所 示 。 
表 6-3 NumPy 和 SciPy 常用 的 统计 方法 


程 序 包 方 法 说 明 
NumPy array 创造 一 组 数 
NumPy. random normal 创造 一 组 服从 正 态 分 布 的 定量 数 
NumPy. random randint 创造 一 组 服从 均匀 分 布 的 定性 数 
NumPy mean 计算 均值 
NumPy median 计算 中 位 数 
SciPy. stats mode 计算 众 数 
NumPy ptp 计算 极 差 
NumPy Var 计算 方差 
NumPy std 计算 标准 差 
NumPy cov 计算 协 方差 
NumPy corrcoef 计算 相关 系数 


6.3 单 组 数据 描述 性 统计 的 Python 应 用 


我 们 知道 ,样本 来 自 总 体 ,样本 的 观测 值 中 含有 总 体 各 方面 的 信息 ,但 这 些 信息 较为 分 
散 , 有 时 显得 杂乱 无 章 。 为 将 这 些 分 散在 样本 中 的 有 关 总 体 的 信息 集中 起 来 以 反映 总 体 的 各 
种 特征 ,需要 对 样本 进行 加 工 得 到 统计 量 。 均 值 \ 标 准 差 、 五 数 (最 小 值 .第 三 四 分 位 数 、 中 位 
数 ,第 一 四 分 位 数 、 最 大 值 ) 是 数据 分 析 的 主要 的 统计 量 , 它 们 对 数据 的 进一步 分 析 很 有 帮助 。 


6.3.1 总 体 描 述 


例 6-1 为 了 解 我 国 各 地 区 的 电力 消费 情况 , 某 课题 组 搜集 整理 了 2009 年 我 国 各 省 市 
的 电力 消费 的 数据 ,如 表 6-4 所 示 。 试 通过 对 数据 进行 基本 描述 性 分 析 来 了 解 我 国 各 省 市 
的 电力 消费 情况 。 


表 6-4 ”2009 年 我 国 各 个 省 市 的 电力 消费 情况 


地 区 电力 消费 
北京 739. 146 
天 津 550. 156 
河北 2343. 85 
山西 1267. 54 
内 蒙古 1287. 93 
青海 337. 24 
宁夏 462. 96 
新 疆 547. 88 


在 目录 G:\2glkx\data 下 建立 al6-1. xls 数据 文件 后 ,从 Excel 取 数 的 Python 代码 如 下 : 


import Pandas as pd 
df = pd. read excel('G:\\2glkx\\data\\al6 — 1.xls') 
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df.head() 


可 得 到 前 5 条 记录 的 数据 如 下 : 


region  _ consumption 
Beijing 739.146484 
Tianjin 550.155579 

Hebei 2343.846680 

Shanxi 1267.537598 

Inner Mongolia 1287.925659 


输入 如 下 命令 : 
df. describe() 


得 到 如 下 描述 性 统计 结果 : 


wb -oOo 


consumption 
count 31.000000 
mean 1180.488799 
std 903.556130 
min 17.698700 
25% 579.689575 
50% 891.190186 
75$% 1306.267822 
max 3609.642334 


如 果 只 需要 consumption 的 均值 ,可 以 利用 函数 df. mean() 实 现 。 


df. mean() 
consumption 1180.488799 


6.3.2 样本 分 位 数 与 众 数 、 最 大 、 最 小 值 描述 


若 要 得 到 consumption 分 位 数 用 df. quantile(), 例 如 要 得 到 0%,25%,50%,75%， 
100%% 的 分 位 数 ,可 用 : 


df. quantile(0), df. quantile(0.25), df. quantile(0.50), df. quantile(0.75), df. quantile(1.0) 
结果 如 下 : 


(consumption 17.6987 

dtype: float64, consumption 579.689575 
dtype: float64, consumption 891.190186 
dtype: float64, consumption 1306.267822 
dtype: float64, consumption 3609.642334 
dtype: float64) 


df. median( ) 井 计算 中 位 数 

consumption 891.190186 

df. max() # 求 最 大 值 
consumption 3609.64 
最 小 值 使 用 df. min()。 

df.min() # 求 最 小 值 


consumption 17.6987 
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6.3.3 离 差 描述 


样本 的 平均 水 平 可 以 用 上 面 介绍 的 平均 值 函 数 mean() 和 中 位 数 函 数 median() 来 计 
算 。 样 本 的 变异 程度 可 以 用 标准 差 函 数 (sd()) ,方差 函数 (var()) 和 绝对 离 差 函 数 (mad()) 
来 表示 。 方 差 函数 var() 也 可 用 于 计算 两 个 向 量 协 方差 或 一 个 矩阵 的 协 方差 阵 。 对 于 z+ 二 
(zi ，… ,Xs) ,sd() 的 定义 为 


>) (ri 一 五 ? 


yr i=1 
sd(zx) 1 
df. std() # 求 consumption 标准 差 
consumption 903.55613 
df,var() # 求 consumption 方差 
consumption 816413.679584 
df.mad() # 根 据 均值 计算 平均 绝对 离 差 
consumption 666.110451 
6.3.4 偏 度 与 峰 度 描述 
_ EC(X=—E(CXYY 
偏 度 ， BR TELX—ECX) TI™ 
EC(X—ECX)) 
峰 度 ， B= _ EX 一 ECX)) 3 


(EL[X—E(X)J)” 
Python 的 Pandas 程序 包 提供 了 求 偏 度 skew() 、 峰 度 kurt() 的 函数 。 


df. skew() # 求 偏 度 
consumption 1.376556 
df.kurt()—3 # 求 峰 度 


consumption 1.272889 


6.3.5 使 用 NumPy 和 SciPy 进行 描述 性 统计 


import NumPy as np 

import Pandas as pd 

data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al6 — 1.xls')) 
data. head( ) 


得 到 前 5 条 记录 如 下 : 


region consumption 
0 Beijing 739.146484 
4 Tianjin 550.155579 
2 Hebei 2343.846680 
3 Shanxi 1267.537598 
4 Inner Mongolia 1287.925659 
x = np.array(data[ ['consumption']]) 
sum(x) 
Out[10]: array([ 36595.15275574]) 
from SciPy import mean 
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mean(x) 

Out[14]: 1180.4887985721712 
from SciPy import median 
median(x) 

Out[18]: 891.190185546875 
from SciPy import var 

var(x) 
Out[21]: 790077.75443609583 
from SciPy import std 

std(x) 
Out[23]: 888.86318094299293 
from SciPYy. stats import skew 
skew(x) 
Out[28]: array([ 1.30903196]) 


6.4 多 组 数据 描述 性 统计 的 Python 应 用 


6.4.1 多 组 数据 描述 性 统计 的 Python-Pandas 应 用 


对 多 组 数据 进行 描述 性 统计 与 单 组 数据 类 似 , 直 接 使 用 Pandas 的 describe() 可 以 得 到 
各 组 数据 的 描述 性 统计 数据 。 先 看 一 个 例子 。 
例 6-2 数据 见 表 6-5。 


表 6-5 多 组 数据 


BH Z1 Z2 Z3 Z4 开 
1 人 26 6 60 78.5 
2 1 29 15 52 74. 3 
3 11 56 8 20 104. 3 
4 11 31 8 47 87.6 
5 7 52 6 33 95. 9 
6 11 55 9 22 109.2 
9 3 全 Eg 6 102.7 
8 1 31 22 44 72.5 
9 2 54 18 22 93.1 
10 21 47 4 18 115.9 
11 1 40 23 34 83.8 
12 11 66 9 12 113.3 
13 10 68 8 12 109.4 


import Pandas as pd 
df = pd. read_ excel( 'G:\\2glkx\\data\\al3 — 1.xls') 
df. head() 


数据 df 描述 了 BH,Z1,Z2,Z3,Z4,K 数据 ,前 5 条 记录 数据 如 下 : 


BH 2Z21 22 23 24 K 
0 1 7 26 6 60 78.5 
1 2 1 29 15 52 74.3 
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2 3 11 56 8 20 104.3 
3 圳 了 相 二 和 6 
4 5 7 52 6 33 95.9 9 


使 用 函数 describe() 描 述 al3-1. xls 的 结果 如 下 : 


df.describe() 
BH Z1 22 2Z3 2Z4 K 
count 13.00000 13.000000 13.000000 13.000000 13.000000 13.000000 
mean 7.00000 7.461538 48.153846 11.769231 29.384615 95.423077 
std 3.89444 5.882394 15.560881 6.405126 17.041804 15.043723 
min 1.00000 1.000000 26.000000 4.000000 6.000000 72.500000 
25% 4.00000 2.000000 31.000000 8.000000 18.000000 83.800000 
时 
0 


.00000 7.000000 52.000000 9.000000 22.000000 95.900000 
.00000 11.000000 56.000000 17.000000 44.000000 109.200000 
max 13.00000 21.000000 71.000000 23.000000 60.000000 115.900000 


从 上 面 数据 可 以 看 出 ,df. describe() 描 述 统 计 了 BH,Z1,22,2Z3,2Z4,K 等 变量 的 计数 、 
均值 标准 差 \ 最 小 值 .25% 的 分 位 数 .50% 的 分 位 数 、75% 的 分 位 数 、 最 大 值 等 。 


6.4.2 方差 、 协 方差 计算 的 Python-NumPy 应 用 
Python 中 NumPy 的 var、cov 用 来 计算 多 个 变量 的 方差 . 协 方差 。 


import NumPy as np 
df.var() 


得 到 如 下 结果 : 


BH 15.166667 
2Z1 34.602564 
2Z2 242.141026 
23 41.025641 
24 290.423077 
K 226.313590 
dtype: float64 
df.cov() 


得 到 协 方差 矩阵 如 下 : 


BH 2Z1 2Z2 2Z3 2Z4 K 
15.166667 3.166667 33.416667 5.583333 -43.250000 28.416667 
3.166667 34.602564 20.923077 -31.051282 -33.192308 64.663462 
.416667 20.923077 242.141026 -13.878205 -252.647436 191.079487 
5.583333 -31.051282 -13.878205 41.025641 8.346154 -51.519231 
—43.250000 -33.192308 -252.647436 8.346154 290.423077 -220.459615 

28.416667 64.663462 191.079487 -51.519231 -220.459615 226.313590 


BRA 


练 习 题 


对 本 章 例题 ,使 用 Python 重新 操作 一 遍 。 


参数 估计 的 Python 应 用 


7.1 参数 估计 与 置信 区 间 的 含义 


根据 样本 推断 总 体 的 分 布 和 分 布 的 数字 特征 称 为 统计 推断 。 本 章 我 们 来 讨论 统计 推断 
的 一 个 基本 问题 一 一 参数 估计 。 参 数 估计 有 两 类 ,一 类 是 点 估计 ,就 是 以 某 个 统计 量 的 样本 
观察 值 作为 未 知 参数 的 估计 值 ; 另 一 类 是 区 间 估 计 , 就 是 用 两 个 统计 量 所 构成 的 区 间 来 估 
计 未 知 参数 。 我 们 在 估计 总 体 均值 的 时 候 , 用 样本 均值 作为 总 体 均值 的 估计 ,就 是 点 估计 。 
在 做 置信 区 间 估 计 之 前 ,必须 先 规定 一 个 置信 度 , 例 如 95%。 园 信和 度 以 1-alpha 表示 ,这 里 
的 alpha 就 是 假设 检验 里 的 显著 性 水 平 。 因 此 95% 的 置信 和 度 就 相对 于 5 多 的 显著 性 水 平 。 
置信 区 间 估 计 的 一 般 公式 为 : 点 估计 士 关键 值 X 样 本 均值 的 标准 误 
至 灶 Za/2 。 二 
n 
这 里 的 关键 值 就 是 以 显著 性 水 平 a 做 双 尾 检验 的 关键 值 。 关 键 值 是 x 关键 值 或 : 关键 
值 。 究 竞 是 > 关键 值 还 是 : 关键 值 ,如 表 7-1 所 示 。 


表 7-1 z 关 键 值 与 + 关键 值 选择 


项 目 正 态 总 体 n<30 n>=30 
已 知 总 体 方差 z z 
未 知 总 体 方差 t t 或 = 


假设 一 位 投资 分 析 师 从 股权 基金 中 选取 了 一 个 随机 样本 ,并 计算 出 了 平均 的 夏普 比率 。 
样本 的 容量 为 100, 并 且 平 均 的 夏普 比率 为 0.45。 该 样本 具有 的 标准 差 为 0. 30。 利 用 一 个 
基于 标准 正 态 分 布 的 临界 值 .计算 并 解释 所 有 股权 基金 总 体 均 值 的 90%% 置 信 区 间 。 这 个 


90% 的 置信 区 间 的 临界 值 为 ow 一 1.65, 故 置信 区 间 为 5 士 zo 凡生 


n 


即 0.4005 一 0.4495 ,分析 师 可 以 说 有 90% 的 信心 认为 这 个 区 间 包 含 了 总 体 均值 。 


7.2 点 估计 的 Python 应 用 


由 大 数 定律 可 知 , 如 果 总 体 X 的 & 阶 矩 存在 , 则 样本 的 & 阶 矩 以 概率 收敛 到 总 体 的 
阶 矩 ,样本 和 矩 的 连续 函数 收敛 到 总 体 矩 的 连续 函数 。 这 就 启发 我 们 可 以 用 样本 和 矩 作 为 总 体 
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和 矩 的 估计 量 , 这 种 用 相应 的 样本 和 抢 去 估计 总 体 矩 的 估计 方法 称 为 矩 估 计 法 。 
设 Xi1，,…,X, 为 来 自 某 总 体 的 一 个 样本 ,样本 的 & 阶 原点 矩 为 


A: = 下 >》 有 一 1,2， 


如 果 总 体 久 的 & 阶 原点 矩 yw 二 ECX*) 存 在 , 则 按 矩 法 估计 的 思想 ,用 A 去 估计 yp。 二 A。 

设 总 体 X 的 分 布 函 数 含有 k 个 未 知 参数 0 一 (0 ,…,9.),j 二 1,2,…,k, 且 分 布 的 前 & 阶 
矩 存在 ,它们 都 是 如 ,… ,9 的 函数 ,此 时 求 6 (j= 二 1,2,…,k) 的 矩 估计 的 步 又 如 下 。 

(1) 求 出 EC(Xi)==j ,j= 二 1,2,…,k, 并 假定 


1 = gis ,0), j= 1,2,.…,k (C13 
(2) 解 方程 组 (1) 得 到 
0 = hp pa), i= 1,2,.,k (2 
(3) 在 上 式 中 用 Ai 代替 yj .j= 二 1,2,…,k 即 得 9 二 (0,,… ,00) 的 矩 估 计 
C=hAin,AL), i=1,2,.,k (3) 


若 有 样本 观察 值 x ,… ,zx, ,代入 上 式 即 可 得 到 9 二 (9, ,… ,0 ) 的 估计 值 。 

由 于 函数 gj; 的 表达 式 不 同 ,求解 上 述 方程 或 方程 组 会 相当 困难 ,这 时 需要 应 用 迭代 算 
法 进行 数值 求解 。 这 需要 具体 问题 具体 分 析 。 我 们 不 可 能 有 固定 的 R 语言 程序 来 直接 估 
计 9, 只 能 利用 R 的 计算 功能 根据 具体 问题 编写 相应 的 R 程序 ,下 面 看 一 个 例子 。 

例 7-1 设 Xi ,…',X， 为 来 自 6(1,9) 的 一 个 样本 ,9 表示 某 事 件 的 成 功 的 概率 ,通常 事 
件 的 成 败 机 会 比 g(0) 二 0/(1 一 人 ) 是 人 们 感 兴趣 的 参数 ,可 以 利用 和 矩 估计 轻松 给 出 g(0) 一 个 


很 不 错 的 估计 。 因 为 是 总 体 均值 ,由 矩 法 , 记 一 二 了)X;, 则 h(X) 一 [过 文 是 g(O) 的 


n i=1 
一 个 矩 估 计 。 

例 7-2 ”对 某 个 篮球 运动 员 记 录 其 在 某 一 次 比赛 中 投篮 命中 与 否 , 观 测 数 据 如 下 : 
1101001011101101 
0010101001101101 

编写 Python 程序 估计 这 个 篮球 运动 员 投篮 的 成 败 比 。 

import numpy as np 

ell 0010 100400 .0,10 10 01 10 1.1,0,3] 

theta = np. mean(x) 

h= theta/(1 ~ theta) 

print 'h= ',h 

h= 1.28571428571 


我 们 得 到 g(0) 的 矩 估计 为 1. 28571428571。 


7.3 单 正 态 总 体 均值 区 间 估 计 的 Python 应 用 


上 一 节 讨 论 了 点 估计 ,由 于 点 估计 值 只 是 估计 量 的 一 个 近似 值 ,因而 点 估计 本 身 既 没有 
反映 出 这 种 近似 值 的 精度 , 即 指出 用 估计 值 去 估计 的 误差 范围 有 多 大 ,也 没有 指出 这 个 误差 
范围 以 多 大 的 概率 包括 未 知 参 数 ,这 正 是 区 间 估 计 要 解决 的 问题 。 本 节 讨 论 单 正 态 总 体 均 
值 的 区 间 估 计 问 题 。 
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7.3.1 方差 oo=o 已 知 时 4 的 置信 区 间 


设 来 自 正 态 总 体 N(y,o) 的 随机 样本 和 样本 值 记 为 Xi ,Xs ,…,X, ,样本 均值 X 是 总 体 
均值 y 的 一 个 很 好 的 估计 量 , 利 用 久 的 分 布 ,可 以 得 出 总 体 均值 的 置信 和 度 为 1 一 a 的 置信 
区 间 ( 通 常 取 一 0.05) 。 


由 于 到 一 Nuso2) ,因此 有 ZNGO,D. 


o/Vn 
由 了 (一 = -<Z<<= -wz) 一 1 一 c 即 得 
p(X 一 让 < + 1 一 c 
所 以 对 于 单个 正 态 总 体 NCwp 喧 ) , 当 m 王 5 已 知 时 ,w 的 置信 区 间 为 1 一 的 置信 区 间 


为 (XE "RH ]: 
n n 


同 理 可 求 得 y 的 置信 和 度 为 1 一 a 的 置信 上 限 为 X 十 


是 ， 
n 


Te 
4 的 置信 和 度 为 1 一 a 的 置信 下 限 为 X 一 -全 xz1_。。 
全 

例 7-3 某 车 间 生 产 的 滚珠 直径 X 服从 正 态 分 布 N(w,0.6)。 现 从 某 天 的 产品 中 抽取 

6 个 , 测 得 直径 如 下 (单位 : mm) 。 
14.6,15.1,14.9,14.8,15. 2,15.1 

试 求 平均 直径 置信 和 度 为 95% 的 置信 区 间 。 

解 : 置信 度 1 一 a 二 0. 95,a 二 0.05。a/2 二 0.025, 查 表 可 得 Zo.02s 二 1. 96, 又 由 样本 值得 
工 二 14.95,n 二 6,0 二 V0.6。 由 上 式 有 


置信 下 限 FE—Z_ wel4.95—1.96X /2.6 一 14.3302 
AT 6 

置信 上 限 z+2 n=14.95+1,906X. /0.6 一 15.5698 
全 6 


所 以 均值 的 置信 区 间 为 (14. 3302,15. 5698) 。 
为 此 ,我 们 编写 的 Pyhton 程序 如 下 : 


import numpy as np 

import scipy. stats as ss 

n= 6;p= 0.025; sigma = np.sqrt(0.6) 

x= [14.6,15.1,14.9,14.8,15.2,15.1] 

xbar = np. mean(x) 

low = xbar - ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n)) 
up = xbar + ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n)) 
print 'low= ', low 

print "up = ',up 

low= 14.3302049677 

up= 15.5697950323 
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7.3.2 方差 o? 未 知 时 1 的 置信 区 间 


下 i 2 
时 4 一 NG Ed ~ 0 1) 


由 于 Z= 


o/Nn 


且 二 者 独立 ,所 以 有 


、_ XX— 
下 一 全 一 上 一 zz 一 1) 
S/n 


同样 由 P( 一 tws(n 一 1) 二 Tt_wz(n 一 1))= 二 1 一 a 得 到 
z_S ,SS 
p(X- Da A »]- | 


n 


所 以 方差 未知 时 jy 的 置信 和 度 为 1 一 a 的 置信 区 间 为 


(x ie DT 各 »] 


其 中 心 Co) 为 自由 度 为 于 的 + 分 布 的 下 侧 户 分 位 数 。 
同 理 可 求 得 的 置信 度 为 1 一 a 的 略 信 上 上 限 为 二 这 1 一 D 
n 


之 的 置信 度 为 1 一 a 的 置信 下 限 为 一 11-。(n 一 1 
n 


例 7-4 某 糖 三 用 自动 包装 机 装 糖 , 设 各 包 重 量 服从 正 态 分 布 NC,o*)。 某 日 开工 后 测 


得 9 包 重 量 为 (单位 : kg): 99.3,98.7,100.5,101.2,98.3,99.7,99.5,102.1,100.5。 


试 求 的 置信 和 度 为 95% 的 置信 区 间 。 
解 : 置信 度 1 一 jy 二 0. 95, 查 表 得 1-ws (2 一 1) 一 tooxs (8) 一 2. 306。 由 样本 值 算 工 一 


99. 978 ,5 一 1. 47 , 故 


置信 下 限 ZT—tialn DD 地 99. 978 一 2. 306X | 99. 046 
1 
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置信 上 限 元 十 in 一 1 研一 99.978 十 2.306X /£4 =~100.91 
后 9 


所 以 4 的 置信 和 度 为 95% 的 鸭 信 区 间 为 (99. 046,100. 91)。 
为 此 ,我 们 编制 Python 程序 如 下 : 


import numpy as np 

import scipy. stats as ss 

from scipy. stats import t 

n= 9;p = 0.025; s = np.sqrt(1.47) 
x=[99.3,98.7,100.5,101.2,98.3,99.7,99.5,102.1,100.5] 
xbar = np. mean(x) 

low = xbar - ss.t.ppf(1-p,n—-1) * (s/np.sagqrt(n)) 
up = xbar + ss.t.ppf(1—-p,n—-1) * (s/np.sgqrt(n)) 
print 'low= ', low 

Print "up = "up 
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得 到 如 下 结果 : 


low= 99.0458173021 
up= 100.909738253 


7.4 单 正 态 总 体 方差 区 间 估 计 的 Python 应 用 


此 时 虽然 也 可 以 就 均值 是 否 已 知 分 两 种 情况 讨论 方差 的 区 间 估计 ,但 在 实际 中 jx 已 知 
的 情形 是 极为 军 见 的 ,所 以 只 在 jy 未 知 的 条 件 下 讨论 方差 o? 的 置信 区 间 。 
由 于 X=n—D)S /oe~X n—1) 


所 以 由 Ptn=De, Ee ZX n=))=1—a 


就 可 以 得 出 的 置信 水 平 为 1 一 a 的 置信 和 区间: 
(7 一 1)S? (7 一 1)S: 
六 二 六 六 (= 5 

例 7-5 从 某 车 间 加 工 的 同类 零件 中 抽取 16 件 , 测 得 零件 的 平均 长 度 为 12. 8 厘米 , 方 
差 为 0.0023。 假 设 零件 的 长 度 服从 正 态 分 布 , 试 求 总 体 方差 及 标准 差 的 置信 区 间 ( 置 信和 度 
为 95%)。 

解 : 已 知 : n= 二 16,S? 二 0.0023,1 一 a 二 0.95, 查 表 得 

Xn—1) = Xs(15) = 6.262 


Xan —1) = X015) = 27. 488 

代入 数据 ,可 算得 所 求 的 总 体 方差 的 置信 区 间 为 (0. 0013 ,0. 0055) ,总 体 标 准 差 的 置信 
区 间 为 (0.0354,0. 0742) 。 

为 此 ,我们 编制 Python 程序 如 下 : 

from scipy. stats import chi2 

n=16;sq= 0.0023;p= 0.025 

low = ((n-1)*sq)/ chi2.ppf(1-p, n-1) 

up = ((n-1)*sq)/ chi2.ppf(p, n—1) 

print 'low= ', low 

print "up = ',up 


得 到 如 下 结果 : 


low= 0.00125507519379 
up= 0.00550930067801 


由 运行 显示 可 知 总 体 方差 的 区 间 估 计 为 (0.00125507519379 ,0. 00550930067801) 。 


7.5 双 正 态 总 体 均 值 差 区 间 估 计 的 Python 应 用 


本 节 讨 论 两 个 正 态 总 体 均 值 差 的 区 间 估 计 问 题 。 


7.5.1 两 方差 已 知 时 两 均值 差 的 置信 区 间 


假设 ,0 都 已 知 ,要 求生 一 me 置信 水 平 为 1 一 a 的 置信 区 间 。 
由 于 KX~N(p 07),Y~N(ps 03) 
且 两 者 独立 ,得 到 
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X—Y~ NOa— p07 /nm +t oi/n) 
Pd 
VA /mtod/ne 
由 P( 一 z1_w 二 Z 二 z1_wz)= 二 1 一 a 即 得 
P(X—Y— zw Vo/mtoi/n <p—p KX—Y+ wy Vo/mto/n)=1—a 
所 以 两 均值 差 的 置信 区 间 为 
(X—Y— zo Vo/mto/ns KX— Ys Vai]n + oi/n) 
同 理 可 求 得 两 均值 差 的 置信 度 为 1 一 a 的 置信 上 限 为 
X—Y+ze Vel/m too/ne 
两 均值 差 的 置信 度 为 1 一 a 的 置信 下 限 为 
X—Y— x Van ta/ne 


因此 有 ~N(0,1) 


下 面 看 一 个 例子 。 

例 7-6 为 比较 两 种 农产品 的 产量 ,选择 18 块 条 件 相似 的 试验 田 , 采 用 相同 的 耕作 方法 
做 实验 ,结果 播种 甲 品种 的 8 块 试验 田 的 单位 面积 产量 和 播种 乙 品种 的 10 块 试验 田 的 单位 
面积 产量 分 别 如 表 7-2 所 示 。 


甲 品种 628,583,510,554,612,523,530,615 


假定 每 个 品种 的 单位 面积 产量 均 服 从 正 态 分 布 . 甲 品种 产量 的 方差 为 2140, 乙 品种 产 
量 的 方差 为 3250。 试 求 这 两 个 品种 平均 面积 产量 差 的 置信 区 间 ( 取 一 0.05) 。 
为 此 ,我 们 编制 Python 程序 如 下 : 


import numpy as np 

import scipy. stats as ss 

x= [628,583,510,554,612,523,530,615] 

Y= [535,433,398, 470,567, 480, 498, 560, 503, 426] 

nl = len(x);n2= len(y) 

xbar = np. mean(x) ;ybar = np. mean(y) 

sigmaql = 2140; sigmaq2 = 3250;p = 0.025 

low = xbar - ybar- ss.norm.ppf(q = 1 - p) * np.sqrt(sigmaql/nl + sigmaq2/n2) 
up = xbar - ybar+ss.norm.ppf(q = 1 - p) * np.sqrt(sigmaql/nl + sigmaq2/n2) 
print 'low= ', low 

print 'up= ',up 


得 到 如 下 结果 : 


low= 34.6870180564 
up= 130.062981944 
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© 
龟 ”7.5.2 两 方差 都 未 知 时 两 均值 的 置信 区 间 


名 
设 两 方差 均 未 知 , 但 中 一 于 一 于 ,此 时 由 于 
二 入 一 Y 一 (和 一 各 ) 


2 ~ N(0,1) 
Voi /nm toi/nz 
Ee 2 二 2 
(mm = ~ 1)， (nz = A 1) 
1]1)S? 二 2 
所 以 (mm DS Ci Doe A 2 
o o 
由 此 可 得 
玫 XY 一 记 志 nz 一 2) 
Vl/nm+t1/n)S’ 
(ai 一 1)Si 十 (zz 一 1)S8 
s2 (m1 1 2 2 
其 中 9 Cn — 1 EL) 


同样 由 P(—ti_w mn —2)<T<H m+n —2)=1—a 

解 不 等 式 即 得 两 均值 差 的 置信 度 为 1 一 a 的 置信 区 间 : 
(X—Y+ttio m+n — 2) VO/m+t1/n)S’) 

同 理 可 求 得 两 均值 差 的 置信 度 为 1 一 a 的 置信 上 限 为 
(X—Y++ihoy mtn —2) V /ntt1/n)S’) 

两 均值 差 的 置信 度 为 1 一 a 的 置信 下 限 为 
(X—Y—t m+tn—2) VA/m+1/nm)S’) 

例 7-7 在 上 一 例题 中 ,如 果 不 知 道 两 种 品种 产量 的 方差 ,但 已 知 两 者 相同 , 求 置信 

区 间 。 
为 此 ,我 们 编制 Python 程序 如 下 : 


import numpy as np 

import scipy. stats as ss 

x= [628,583,510,554,612,523,530,615] 

y= [535,433,398,470,567, 480, 498, 560, 503, 426] 
nl=1.0xlen(x);n2=1.0x1len(y) # 转 为 小 数 

sl = np.var(x);s2 = np.var(y) 

xbar = np. mean(x) ;ybar = np. mean(y) 

p= 0.025 

sq= ((n1l—1)*sl+(n2-1)*s2)/(n1 -1+n2-1) 

low = xbar - ybar- ss.t.Pppf(1—p,nl+n2-2)*np.sqrt(sq* (1/nl+1/n2)) 
up = xbar - ybar+ ss.t.ppf(1—p,nl+n2—2)*np.sqrt(sq*x (1/nl+ 1/n2)) 
print 'low= ', low 

print 'up = ',up 


得 到 如 下 结果 : 


low= 32.4209278184 
up= 132.329072182 
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可 见 ,这 两 个 品种 的 单位 面积 产量 方差 的 置信 水 平 为 0. 95 的 置信 区 间 为 (32. 4209278184， 轩 
132. 329072182) 。 四 


7.6 双 正 态 总 体 方 阎 比 区 间 估 计 的 Python 应 用 


此 时 虽然 也 可 以 就 均值 是 否 已 知 分 两 种 情况 讨论 方差 的 区 间 估 计 , 但 在 实际 中 jy 已 知 
的 情形 是 极为 军 见 的 ,所 以 只 讨论 在 未知 的 条 件 下 方差 o? 的 置信 区 间 。 
由 于 Gu— DSI/e~X nm—1),n— DS/e~X Cn —1) 
且 Si 与 S; 相互 独立 , 故 
F = (S/o)/(S2/o) ~ Fm —1,n,—1) 
所 以 对 于 给 定 的 置信 水 平 1 一 a, 由 
PCFss (ma 一 1 2 一 1) <(SI/A)/(SI/G) < Fn 一 1 一 1)) 一 1 一 a 
就 可 以 得 出 两 方差 比 的 置信 水 平 为 1 一 a 的 置信 区 间 
人 1 5 1 ) 
Si Flylm 一 1 一 1) SI Fy (moO—1,n— 1) 
其 中 ,FF (m,n) 为 自由 度 为 (m,n) 的 下 分 布 的 下 侧 p 分 位 数 。 
例 7-8 甲乙 两 台 机 床 分 别 加 工 某 种 轴承 ,轴承 的 直径 分 别 服从 正 态 分 布 N (jp ,of)， 
NG ,ai), 从 各 自 加 工 的 轴承 中 分 别 抽取 若干 个 轴承 测 其 直径 ,结果 如 表 7-3 所 示 。 


总 体 样本 容量 直 径 
X( 机 床 甲 ) 8 20. 5,19. 8,19.7,20.4,20.1,20.0,19.0,19.9 
X( 机 床 乙 ) 7 20.7,19. 8,19. 5,20. 8,20. 4,19. 6,20.2 


试 求 两 台 机 床 加 工 的 轴承 直径 的 方差 比 的 0. 95 的 置信 区 间 。 


import numpy as np 

from scipy. stats import f 

x= [20.5,19.8,19.7,20.4,20.1,20.0,19.0,19.9] 
y= [20.7,19.8,19.5,20.8,20.4,19.6,20.2] 
sql = np. var(x);sq2 = np. var(y) 
nl=8;n2=7;p=0.025 

f.ppf(0.025, n1 -1, n2-1) 

low = sql/sq2*1/f.ppf(1-p, nl -1, n2-1) 
up = sql/sq2*1/f.ppf(p, nl -1, n2—1) 
print 'low= ', low 

print "up = ',up 

low= 0.142168867371 

up= 4.14462281408 


由 上 面 的 运行 显示 可 见 ,两 台 机 床 的 加 工 轴承 的 直径 的 方差 比 的 0. 95 置信 区 间 
(0. 142168867371,4. 14462281408) ,方差 比 为 0.7932。 


练 习 题 


对 本 章 例题 ,使 用 Python 重新 操作 一 遍 。 


参数 假设 检验 的 Python 应 用 


第 
= 
= 


参数 假设 检验 是 指 对 参数 的 平均 值 方差、 比率 等 特征 进行 的 统计 检验 。 参 数 假设 检验 
一 般 假 设 统计 总 体 的 具体 分 布 是 已 知 的 ,但 是 其 中 的 一 些 参数 或 者 取 值 范围 不 确定 ,分 析 的 
主要 目的 是 估计 这 些 未 知 参数 的 取 值 或 者 对 这 些 参数 进行 假设 检验 。 参 数 假设 检验 不 仅 
能 够 对 总 体 的 特征 参数 进行 推断 ,还 能 够 对 两 个 或 多 个 总 体 的 参数 进行 比较 。 常 用 的 参数 
假设 检验 包括 单一 样本 t 检验、 两 个 总 体 均值 差异 的 假设 检验 、 总 体 方差 的 假设 检验 、 总 体 
比率 的 假设 检验 等 。 本 章 先 介绍 假设 检验 的 基本 理论 ,然后 通过 实例 来 说 明 R 软件 在 参数 
假设 检验 中 的 具体 应 用 。 


8.1 参数 假设 检验 的 基本 理论 


8.1.1 假设 检验 的 概念 


为 了 推断 总 体 的 某 些 性 质 ,我 们 会 提出 总 体 性 质 的 各 种 假设 。 假 设 检验 就 是 根据 样本 
提供 的 信息 对 所 提出 的 假设 作出 判断 的 过 程 。 
原 假 设 是 我 们 有 怀疑 , 想 要 拒绝 的 假设 , 记 为 H。。 备 择 假设 是 我 们 拒绝 了 原 假设 后 得 
到 的 结论 , 记 为 五 。。 
假设 都 是 关于 总 体 参 数 的 ,例如 ,我们 想 知道 总 体 均 值 是 否 等 于 某 个 常数 re ,那么 原 假 
设 是 Ho :1 二 pw , 则 备 择 假设 是 H,:p 才 pv。 
上 面 这 种 假设 ,我们 称 为 双 尾 检验 ,因为 备 择 假设 是 双边 的 。 
下 面 两 种 假设 检验 称 为 单 尾 检验 ， 
Ho:py 宇 po He:p< po 
Ho:xy<po Ho:p> po 
注意 : 无 论 是 单 尾 还 是 双 尾 检验 ,等 号 永远 都 在 原 假设 一 边 , 这 是 用 来 判断 原来 假设 的 
唯一 标准 。 
8.1.2 第 一 类 错误 和 第 二 类 错误 
我 们 在 做 假设 检验 的 时 候 会 犯 两 种 错误 : 第 一 ,原来 假设 是 正确 的 而 你 判断 它 为 错误 
的 ; 第 二 ,原来 假设 是 错误 的 而 你 判断 它 为 正确 的 。 我 们 分 别称 为 第 一 类 错误 和 第 二 类 
错误 。 
第 一 类 错误 : 原来 假设 是 正确 的 , 却 拒绝 了 原来 假设 ; 
94 
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这 类 似 于 法 官 判 案 时 ,如 果 被 告 是 好 人 , 却 判 他 为 坏人 ,这 是 第 一 类 错误 ( 错 杀 好 人 或 以 
真 为 假 ) 。 

如 果 被 告 是 坏人 , 却 判 他 为 好 人 ,这 是 第 二 类 错误 ( 放 走 坏人 或 以 假 为 真 ) 。 

在 其 他 条 件 不 变 的 情况 下 ,如果 要 求 犯 第 一 类 错误 概率 越 小 ,那么 犯 第 二 类 错误 的 概率 
就 会 越 大 ,通俗 的 理解 是 : 当 我 们 要 求 错 杀 好 人 的 概率 降低 ,那么 往往 就 会 放 走 坏人 。 

同样 的 ,在 其 他 条 件 不 变 的 情况 下 ,如 果 要 求 犯 第 二 类 错误 概率 越 小 ,那么 犯 第 一 类 错误 
的 概率 就 越 大 。 通 俗 的 理解 即 : 当 我 们 要 求 放 走 坏人 的 概率 降低 ,那么 往往 就 会 错 杀 好 人 。 

其 他 条 件 不 变 主要 指 的 是 样本 量 不 变 。 换 言 之 ,要 想 减 少 犯 第 一 类 错误 的 概率 和 犯 
第 二 类 错误 的 概率 ,就 要 增 大 样本 量 n。 

在 假设 检验 的 时 候 , 我 们 会 规定 一 个 允许 犯 第 一 类 错误 的 概率 ,比如 5% ,这 称 为 显著 
性 水 平 , 记 为 a。 我 们 通常 只 规定 犯 第 一 类 错误 的 概率 ,而 不 规定 犯 第 二 类 错误 的 概率 。 

检验 的 势 定义 为 在 原 假设 是 错误 的 情况 下 正确 拒绝 原 假设 的 概率 。 检 验 的 势 等 于 ]1 减 
去 犯 第 二 类 错误 的 概率 。 

我 们 用 表 8-1 来 表示 显著 性 水 平和 检验 的 势 。 


表 8-1 显著 性 水 平和 检验 的 势 


第 二 类 错误 : 原来 假设 是 错误 的 , 却 没有 拒绝 原来 候 设 。 @ 


项 目 原 假设 正确 原 假设 不 正确 

第 一 类 铺 误 妈 断 正确 
和 全 大 本 显著 性 水 平 检验 的 势 =1 一 P( 第 二 类 错误 ) 
没有 拒绝 原 假设 判断 正 确 第 二 类 错误 


要 做 假设 检验 ,我 们 先 要 计算 两 样 东 西 : 检验 统计 量 和 关键 值 。 

检验 统计 量 是 从 样本 数据 中 计算 得 来 的 。 检 验 统计 量 的 一 般 形式 为 : 

检验 统计 量 =( 样 本 统计 量 一 在 Ho 中 假设 的 总 体 参 数值 )/ 样 本 统计 量 的 标准 误 
关键 值 是 查 表 得 到 的 。 关 键 值 的 计算 需要 知道 以 下 三 点 。 

(1) 检验 统计 量 是 什么 分 布 ,这 决定 我 们 要 去 查 哪 张 表 ; 

(2) 显著 性 水 平 ; 

(3) 是 双 尾 还 是 单 尾 检验 。 


8.1.3 决策 规则 


1. 基于 检验 统计 量 和 关键 值 的 决策 准则 


计算 检验 统计 量 和 关键 值 之 后 ,怎样 判断 是 拒绝 原 假设 还 是 不 拒绝 原 假设 呢 ? 

首先 ,我 们 要 搞 清楚 我 们 做 的 是 双 尾 检验 还 是 单 尾 检验 。 如 果 是 双 尾 检验 ,那么 拒绝 域 
在 两 边 。 以 双 尾 Z 检验 为 例 ,首先 画 出 Z 分 布 (标准 正 态 分 布 ) ,在 两 边 画 出 黑色 的 拒绝 区 
域 。 如 图 所 示 。 

拒绝 区 域 的 面积 应 等 于 显著 性 水 平 。 以 a 二 0.05 为 例 , 左 右 两 块 拒绝 区 域 的 面积 之 和 
应 等 于 0.05, 可 知 交界 处 的 数值 为 士 1. 96。 土 1. 96 即 为 关键 值 ,如 图 8-1 所 示 。 

如 果 从 样本 数据 中 计算 得 出 的 检验 统计 量 落 在 拒绝 区 域 ( 小 于 一 1. 96 或 大 于 1. 96) ,就 
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拒绝 原 假设 ; 如 果 检 验 统计 量 没有 落 在 拒绝 区 域 (在 一 1. 96 和 1. 96 之 间 ) ,就 不 能 拒绝 原 
假设 。 

如 果 是 单 尾 检验 ,那么 拒绝 区 域 在 一 边 。 拒 绝 区域 在 哪 一 边 , 要 看 备 择 假设 在 哪 一 边 。 
以 单 尾 的 Z 检 验 为 例 , 假 设 原 假设 为 Ho: yp , 备 择 假 设 为 昌 , :py 记 pyo ,那么 拒绝 区 域 在 右 
边 ,因为 备 择 假设 在 右边 。 首 先 画 出 x 分 布 (标准 正 态 分 布 ) ,在 右边 画 出 黑色 的 拒绝 区 域 ， 
如 图 8-2 所 示 。 


5% 


图 8-1 双边 拒绝 域 的 正 态 分 布 图 图 8-2 右边 拒绝 域 的 正 态 分 布 图 


拒绝 区 域 的 面积 还 是 等 于 显著 性 水 平 。 以 a 二 0.05 为 例 ,因为 只 有 一 块 拒绝 区 域 ,因此 
其 面积 为 0.05, 可 知 交 界 处 的 数值 为 1. 65。1. 65 即 为 关键 值 。 

如 果 从 样本 数据 中 计算 得 出 的 检验 统计 量 落 在 拒绝 区 域 (大 于 1. 65) ,就 拒绝 原 假设 ; 
如 果 检 验 统计 量 没有 落 在 拒绝 区 域 (小 于 1. 65) ,就 不 能 拒绝 原 假 设 。 


2. 基于 p 值 和 显著 性 水 平 的 决策 规则 


在 实际 中 ,如 统计 软件 经 常 给 出 是 p 值 ,可 以 将 p 值 与 显著 性 水 平 作 比较 ,以 决定 拒绝 
还 是 不 拒绝 原 假设 ,这 是 基于 p 值 和 显著 性 水 平 的 决策 规则 。 

首先 来 看 看 p 值 到 底 是 什么 。 对 于 双 尾 检验 ,有 两 个 检验 统计 量 , 两 个 统计 量 两 边 的 
面积 之 和 就 是 p 值 。 因 此 ,每 一 边 的 面积 是 p/2, 如 图 8-3 所 示 。 

对 于 单 尾 检 验 , 只 有 一 个 检验 统计 量 , 检 验 统计 量 边 上 的 面积 就 是 p 值 ,如 图 8-4 
所 示 。 


图 8-3 双边 p 值 的 正 态 分 布 图 图 8-4 单 边 p 值 的 正 态 分 布 图 


计算 p 值 的 目的 是 与 显著 性 水 平 作 比 较 。 如 果 p 值 小 于 显著 性 水 平 ,说 明 检 验 统计 量 
落 在 拒绝 区 域 ,因此 拒绝 原 假设 。 如 果 p 值 大 于 显著 性 水 平 ,说 明 检验 统计 量 没有 落 在 拒 
绝 区 域 ,因此 不 能 拒绝 原 假设 。 

妃 值 的 定义 为 : 可 以 拒绝 原 假设 的 最 小 显著 性 水 平 。 


3. 结论 的 陈述 
如 果 不 能 拒绝 原 假设 ,我 们 不 能 说 接受 原 假设 ,只 能 说 “不 能 拒绝 原 假设 ”(can not 


在 作出 判断 之 后 ,我 们 还 要 陈述 结论 。 如 果 拒 绝 原 假设 ,那么 我 们 说 总 体 均值 显著 地 不 
相等 。 


8.1.4 单个 总 体 均值 的 假设 检验 


我 们 想 知道 一 个 总 体 均值 是 否 等 于 (或 大 于 等 于 、 小 于 等 于 ) 某 个 常数 yo, 可 以 使 用 Z 
检验 或 了 检验 。 双 尾 和 单 尾 检验 的 原 假设 和 备 择 假设 如 下 : 
Ho:py=po, Ho:p A po 
Ho:p 宇 po, 万 :二 Am 
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Ho:py Spo, Ho:p> po 
下 表 8-2 告诉 我 们 什么 时 候 使 用 Z 检验 ,什么 时 候 使 用 + 检验。 


表 8-2 Z 检 验 与 + 检验 比较 


正 态 总 体 ,n<30 n>=30 
已 知 总 体 方差 Z 检 验 Z 检 验 
未 知 总 体 方差 t 检验 t 检 验 或 Z 检验 


下 面 , 我 们 要 计算 Z 统计 量 和 1 统计 量 。 
如 果 已 知 总 体 方差 ,那么 Z 统计 量 的 和 公式 为 


其 中 ,z 为 样本 均值 ,o 为 总 体 标准 差 ,nn 
如 果 未 知 总 体 方差 ,那么 Z et 


健壮 
> 泣 


其 中 ,元 为 样本 均值 ,* 为 样本 标准 差 ， E > 30,7 = 和 (zi 一 五 2 < 30,s = i (zi— 


下 ?|.， 为 天 本 容量 。 

4 统计 量 的 公式 为 

E S MTZ 
其 中 为 样本 均值, 为 样本 标准 差 , 为 样本 容量 。 

下 标 n 一 1 是 ; 分布 的 自由 度 ,我们 在 查 表 找 关键 值 时 要 用 到 自由 度 。 

例 8-1 一 个 股票 型 共同 基金 的 风险 收益 特征 。 一 家 已 经 在 市 场 中 生存 了 24 个 月 的 中 
等 市 值 成 长 型 基金 。 在 这 个 区 间 中 ,该 基金 实现 了 1. 50% 的 月 度 平均 收益 率 ,而 且 该 月 度 
收益 率 的 样本 标准 差 为 3.6%。 给 定 该 基金 所 面临 的 系统 性 风险 (市 场 风险 ) 水 平 , 并 根据 
一 个 定价 模型 ,我 们 预期 该 共同 基金 在 这 个 区 间 中 应 该 获得 1. 10% 的 月 度 平均 收益 率 。 候 
定 收益 率 服从 正 态 分 布 ,那么 实际 结果 是 否 和 1. 1% 这 个 理论 上 的 月 度 平均 收益 率 或 者 总 
体 月 度 平均 收益 率 相 一 致 ? 
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(1) 给 出 与 该 研究 项 目的 语言 描述 相 一 致 的 原 假设 和 备 择 假 设 ; 

(2) 找 出 对 于 第 (1) 问 中 的 假设 进行 检验 的 检验 统计 量 ; 

(3) 求 出 0. 10 显著 性 水 平 下 第 1 问 中 所 检验 的 假设 的 拒绝 点 ; 

(4) 确定 是 否 应 该 在 0. 10 显著 性 水 平 下 拒绝 原 假 设 。 

解 : (1) 我 们 有 一 个 “不 等 ”的 备 择 假设 ,其 中 jy 是 该 股票 基金 的 对 应 的 平均 收益 率 
Ho:p 二 1.1 对 应 于 H,:p 关 1.1。 

(2) 因为 总 体 方差 是 未 知 的 ,我 们 利用 24 一 1 一 23 自由 度 的 检验。 

(3) 因为 这 是 一 个 双边 检验 ,我 们 的 拒绝 点 -1 二 to.0s,23, 在 1 分布 表 中 ,自由 度 为 23 的 
行 和 0.05 的 列 ,找到 1.714。 双 边 检验 的 两 个 拒绝 点 是 1. 714 和 一 1. 714。 如 果 我 们 发 现 
1 之 1.714 或 1 二 1.714, 我 们 将 拒绝 原 假设 。 

元 一 pe _1.50—1.10_ 


(4) tz 二 一 个 二 一 一 一 一 一 0. 544331 或 0.544 。 
su 3.6%/ V24 


8.1.5 两 个 独立 总 体 均值 的 假设 检验 


我 们 想 知道 两 个 相互 独立 的 正 态 分 布 总 体 的 均值 是 否 相等 ,可 以 使 用 : 检验 来 完成 。 
双 尾 和 单 尾 检验 的 原 假设 和 备 择 假 设 如 下 : 
Ho:p 一 Ma， Ho:p A pe 
Ho:p 之 各， He: < pe 
Ho:n po, He:p > jp 
下 标 1 和 2 分 别 表示 取 自 第 一 个 总 体 的 样本 和 取 自 第 二 个 总 体 的 样本 ,这 两 个 样本 是 
相互 独立 的 。 
在 开始 做 假设 检验 之 前 ,我 们 先 要 区 分 两 种 情况 : 第 一 种 ,两 总 体 方差 未 知 但 假定 相 
等 ; 第 二 种 ,两 总 体 方差 未 知 且 假定 不 等 。 
对 于 第 一 种 情况 ,我们 用 1 检验 ,其 自由 度 为 十 ns 一 2。t 统计 量 的 计算 公式 如 下 : 


(zi= te) = = je》 2 (一 1)s 十 (xz 一 1)5 
"其 中 性 十 15 一 2 


tn +n,—2 3 
mts 
51 为 第 一 个 样本 的 样本 方差 ,si 为 第 二 个 样本 的 样本 方差 ,mm 为 第 一 个 样本 的 样本 量 ， 
nz 为 第 二 个 样本 的 样本 量 。 
例 8-2 20 世纪 80 年 代 的 标准 普尔 500 指数 已 实现 的 月 度 平均 收益 率 似乎 与 20 世纪 70 
年 代 的 月 度 平均 收益 率 有 着 巨大 的 不 同 ,那么 这 个 不 同 是 否 存 在 统计 上 是 显著 的 呢 ? 表 8-3 
所 给 的 数据 表明 ,我 们 没有 充足 的 理由 拒绝 这 两 个 10 年 的 收益 率 的 总 体 方差 是 相同 的 。 


表 8-3 两 个 10 年 的 标准 普尔 500 指数 的 月 度 平均 收益 率 及 其 标准 差 


10 年 区 间 月 数 n 月 度 平均 收益 率 标准 差 
20 世纪 70 年 代 120 0. 580 4. 598 
20 世纪 80 年 代 120 1.470 4.738 


(1) 给 出 与 双边 假设 检验 相 一 致 的 原 假设 和 备 择 假设 。 
(2) 找 出 检验 第 (1) 问 中 假设 的 检验 统计 量 。 
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(3) 求 出 第 (1) 问 中 所 检验 的 假设 在 0. 10,0.05,0. 01 显著 性 水 平 下 的 拒绝 点 。 

(4) 确定 在 0.10,0.05 和 0.01 显著 性 水 平 下 是 否 应 拒绝 原 假设 。 

解 : (1) 令 jy 表示 20 世纪 70 年 代 的 总 体 平均 收益 率 , 令 ys 表示 20 世纪 80 年 代 的 总 
体 平均 收益 率 ,于 是 我 们 给 出 如 下 的 假设 : 

Ho:p 一 和 mn， 万 :ja A pz 

(2) 因为 两 个 样本 分 别 取 自 不 同 的 10 年 区 间 , 所 以 它们 是 独立 样本 。 总 体 方差 是 未 知 
的 ,但 是 可 以 被 假设 为 相等 。 给 定 所 有 这 些 条 件 , 在 1 统计 量 的 计算 公式 中 所 给 出 的 t 检验 
具有 120 十 120 一 2 一 238 的 自由 度 。 

(3) 在 上 分 布 表 中 ,最 接近 238 的 自由 度 为 200。 对 于 一 个 双边 检验 ,df 二 200 的 0. 10， 
0.05,0.01 显著 性 水 平 下 的 拒绝 点 分 别 为 土 1. 653 , 士 1.972, 士 2. 601。 即 在 0. 10 显著 性 水 
平 下 ,如 果 1 一 一 1. 653 或 者 :一 1. 653 ,我 们 将 拒绝 原 假 设 ; 在 0.05 显著 性 水 平 下 ,如 果 1 一 
一 1.972 或 者 上 全 1. 972 ,我 们 将 拒绝 原 假设 ; 在 0.01 显著 性 水 平 下 ,如 果 :二 一 2. 601 或 者 
1 一 2. 601 ,我 们 将 拒绝 原 假 设 。 

(4) 计算 检验 统计 量 时 ,首先 计算 合并 方差 的 估计 值 : 


(mC—1)s+(n—1)s _ (120—1)(4.598)? 十 (120 一 1)(4.738)? 

本 三 二 

种 m+ns—2 120 十 120 一 2 eT 

_ (a1— xz) — (a — pa) (0.580 一 1.470) 一 0 O89 二 

A 中 21.795124 | 21.795124] ”0.602704 
a 120 120 


nl no 

t 值 等 于 一 1. 477 在 0. 10 显著 性 水 平 下 不 显著 ,同样 在 0.05 和 0. 01 显著 性 水 平 下 也 
不 显著 。 因 此 ,我 们 无 法 在 任 一 个 显著 性 水 平 下 拒绝 原 假设 。 

当 我 们 能 假设 两 个 总 体 服从 正 态 分 布 ,但 是 不 知道 总 体 方差 ,而且 不 能 假设 方差 是 相等 
的 时 候 , 基 于 独立 随机 样本 的 近似 。 检 验 给 出 如 下 : 

ee (zi = Ca 一 Apa) 

5? 为 第 一 个 样本 的 样本 方差 ,s 为 第 二 个 样本 的 样本 方差 ,ni 为 第 一 个 样本 的 样本 量 ,n, 为 
第 二 个 样本 的 样本 量 。 

其 中 ,我 们 使 用 “修正 的 ”自由 度 , 其 计算 公式 为 

(si /ms? /ne)’ 
(s/nm) /mt (s/n,)’ /ns 


df 


的 数值 表 。 

例 8-3: 违约 债券 的 回收 率 。 具 有 风险 的 公司 债券 的 要 求 收 益 率 是 如 何 决定 的 ? 两 个 
重要 的 考虑 因素 为 预期 违约 概率 和 在 违约 发 生 的 情况 下 预期 能 够 回收 的 金额 ( 即 回收 率 ) 。 
奥 特 曼 (Altman) 和 基 肖 和 尔 (Kishore)(1996) 首 次 记录 了 行业 和 信用 等 级 进行 分 层 的 违约 债 
券 的 平均 回收 率 。 对 于 他 们 的 研究 区 间 1971 一 1995 年 , 奥 特 曼 (Altman) 和 基 肖 尔 
(Kishore) 发 现 公共 事业 公司 、 化 工 类 公司 .石油 公司 以 及 塑胶 制造 公司 的 违约 债券 的 回收 
率 明 显要 高 于 其 他 行业 。 这 一 差别 是 否 能 够 通过 在 高 回收 率 行业 中 的 高 信用 债券 比较 来 解 
释 ? 他 们 通过 检验 以 信用 等 级 分 层 的 回收 率 来 对 此 进行 研究 。 这 里 ,我们 仅 讨论 他 们 对 于 
高 信用 担保 债券 的 结果 。 其 中 各 表示 公共 事业 公司 的 高 信用 担保 债券 的 总 体 平均 回收 率 ， 
而 ys 表示 其 他 行业 ( 非 公共 事业 ) 公 司 的 高 信用 担保 债券 的 总 体 平均 回收 率 , 假 设 Ho:y0 二 
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V2 yi :和 天 ja 。 
表 8-4 摘自 他 们 的 部 分 结果 。 


表 8-4 高 信用 债券 的 回收 率 单位 : 美元 

一 非 公共 事业 样本 非 公共 事业 样本 
行业 类 /高 信用 | 观测 数 | 违约 时 的 平均 价格 | 标准 差 | 观测 数 | 违约 时 的 平均 价格 | 标准 关 
公共 事业 高 信用 担保 | 64. 42 14. 03 64 55.75 25.17 


根据 他 们 的 研究 假设 ,总 体 服从 正 态 分 布 ,并 且 样 本 是 独立 的 。 根 据 表 8-4 中 的 数据 ， 
回答 下 列 问题 ， 
CD 讨论 为 什么 奥 特 曼 (Altman) 和 基 肖 尔 (Kishore) 会 选择 1 一 (一 也 二 (后 一 后 》， 
5 S$: 
mt 
而 不 是 各 1 4 一 < 一 2 一 (的 一 反 ) 的 检验 方法 。 
(2) 计算 检验 上 述 给 出 的 原 假设 的 检验 统计 量 。 
(3) 该 检验 的 修正 自由 度 的 数值 为 多 少 ? 
(4) 确定 在 0. 10 显著 性 水 平 下 是 否 应 该 拒绝 原 假设 。 
解 : (1) 高 信用 担保 的 公共 事业 公司 回收 率 的 样本 标准 差 14. 03 要 比 与 之 相 比 的 非 公 
共事 业 公司 回收 率 的 样本 标准 差 5. 17 更 小 。 故 不 假设 它们 的 均值 相等 的 选择 是 恰当 的 ， 


所 以 奥 特 曼 和 基 肖 和 尔 采 用 /一代 : 一 z2) 一 (一 如) 检验 。 


(2) 检验 统计 量 为 


nl 722 
式 中 ,2z 表示 公共 事业 公司 的 样本 平均 回收 率 =64. 42,xs 表示 非 公 共事 业 公司 的 样 
本 平均 回收 率 ==55. 75 ,sf 二 14.03^2 二 196. 8409,s 一 25.17^2 一 633. 5289,m 一 21,nz 二 64。 


(Z1—Z2)— (pu —p) 64. 42—5575 
本 [196. 8409/21+633. 5289764] 7 1* 97 


于 十 王 
nm nz 
(Cat /mt 
(sf/m)’ /nt (si/n2)’ /ne 


(196. 8409/21 十 633. 5289/64)? 
(196. 8409/21)2?/21 十 (633. 5289/64)2/64 


即 65 个 自由 度 。 

(4) 在 t 分 布 表 的 数值 表 中 最 接近 df=65 的 一 栏 是 df 二 60。 对 于 a 二 0. 10, 我 们 找到 
ij 一 1.671。 因 此 ,如果 :二 一 1. 671 或 达 1. 671, 我 们 就 会 拒绝 原 假 设 。 基 于 所 计算 的 值 
t 二 1.975 ,我 们 在 0. 10 显著 性 水 平 下 拒绝 原 假设 。 存 在 一 些 公共 事业 公司 和 非 公共 事业 公 
司 回 收 率 不 同 的 证 据 。 为 什么 是 这 样 的 ? 奥 特 曼 (Altman) 和 基 肖 和 尔 (Kishore) 认 为 公司 资 


(3) df 


64.99 
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产 的 不 同性 质 以 及 不 同行 业 的 竞争 水 平 造成 了 不 同 的 回收 率 。 
8.1.6 成 对 比较 检验 


上 面 我 们 讲 的 是 两 个 相互 独立 的 正 态 分 布 总 体 的 均值 检验 ,两 个 样本 是 相互 独立 的 。 
如 果 两 个 样本 相互 不 独立 ,我 们 做 均值 检验 时 要 使 用 成 对 比较 检验 。 成 对 比较 检验 也 使 用 
t 检 验 来 完成 , 双 尾 和 单 尾 检 验 的 原 假设 和 备 择 假设 如 下 : 

Ho:pa 一 pm， Ho:pa AF po 

Ho :pa 之 pm， Ho, :pa =<p 

Ho:pa < po, Ho,:pa > po 
其 中 wu 表示 两 个 样本 均值 之 差 ,为 常数 ,po 通常 等 于 0。 

t 统计 量 的 自由 度 为 ”一 1, 计 算 公 式 如 下 : 
1 = 4 一 和 

其 中 ,gd 是 样本 差 的 均值 。 我 们 取得 两 个 成 对 的 样本 之 后 ,对 应 相 减 ,就 得 到 一 组 样本 差 的 
数据 , 求 这 一 组 数据 的 均值 ,就 是 4L。sz 是 4 的 标准 误 , 即 33 =s4/Vn。 

下 面 的 例子 说 明了 对 于 竞争 的 投资 策略 进行 评估 的 这 个 检验 的 应 用 。 

例 8-5 道 -10 投资 策略 。 麦 硅 因 (Mcqueen)、 谢 尔 德 斯 (Shields) 和 索 利 (Thorley) 
(1997) 检 验 了 一 个 流行 的 投资 策略 (该 策略 投资 于 道琼斯 工业 平均 指数 中 收益 率 最 高 的 10 
只 股票 ) 与 一 个 买 人 并 持 有 的 策略 (该 策略 投资 于 道琼斯 工业 平均 指数 中 所 有 的 30 只 股票 ) 
之 间 的 业绩 比较 。 他 们 研究 的 区 间 段 是 1946 一 1995 年 的 50 年 区 间 。 


表 8-5 道 -10 和 道 -30 投资 组 合 年 度 收益 率 汇 总 (1946 一 1995) (nm 一 50) 


策略 平均 收益 率 标准 差 
道 -10 16.77% 19.10% 
道 -30 id.ng 16. 64 
差别 3.06 6.629 


注 : @ 差别 的 样本 标准 差 。 


请 回答 下 列 问题 : 

(1) 给 出 道 -10 和 道 -30 策略 间 收 益 率 差别 的 均值 等 于 0 这 个 双边 检验 相 一 致 的 原 假 
设 和 备 择 假 设 。 

(2) 找 出 对 于 第 (1) 问 中 假设 进行 检验 的 检验 统计 量 。 

(3) 求 出 在 0.01 显著 性 水 平 下 第 (1) 问 中 所 检验 的 假设 的 拒绝 点 。 

(4) 确定 在 0.01 显著 性 水 平 下 是 否 应 该 拒绝 原 假 设 。 

(5) 讨论 为 什么 选择 配对 比较 检验 。 

解 : (1) ms 表示 道 -10 和 道 -30 策略 间 收 益 率 差别 的 均值 ,我 们 有 

Ho :pa=0,H, :p40。 

(2) 因为 总 体 方差 未 知 ,所 有 检验 统计 量 为 一 个 自由 度 50 一 1 一 49 的 上 检验 。 

(3) 在 上 分 布 表 中 ,我 们 查阅 自由 度 为 49 的 一 行 ,显著 性 水 平 为 0.05 的 一 列 , 从 而 得 到 
2. 68。 如 果 我 们 发 现 + 二 2. 68 或 1 二 一 2. 68。 我 们 将 拒绝 原 假设 。 


© 经 济 金 融 数据 分 析 及 其 Python 应 用 


es@@ 


3.06 
6. 62/ V50 

因为 3. 27 之 2. 68, 所 以 我 们 拒绝 原 假设 。 

结论 : 平均 收益 率 的 差别 在 统计 上 是 明显 显著 的 。 

(5) 道 -30 包含 道 -10。 因 此 ,它们 不 是 相互 独立 的 样本 ; 通常 , 道 -10 和 道 -30 策略 间 
收益 率 的 相关 系数 为 正 。 因 为 样本 是 相互 依赖 的 ,配对 比较 检验 是 恰当 的 。 


8.1.7 单个 总 体 方差 的 假设 检验 


首先 是 关于 单个 总 体 方差 是 否 等 于 (大 于 等 于 .小 于 等 于 ) 某 个 常数 的 假设 检验 。 我 们 
要 使 用 卡 方 检验 。 
双 尾 和 单 尾 检验 的 原 假设 和 备 择 假设 如 下 : 
i 
Ho:o 宇 %, Hu:o < 
Ho:o <, Ho > 
卡 方 统计 量 的 自由 度 为 n 一 1, 计 算 方法 如 下 : 


(4) t= 二 3.2685 或 3.27。 


其 中 s? 为 样本 方差 。 

例如 : 某 股票 的 历史 月 收益 率 的 标准 差 为 5%, 这 一 数据 是 基于 2003 年 以 前 的 历史 数 
据 测 定 的 。 现 在 ,我 们 选取 2004 一 2006 年 这 36 个 月 的 月 收益 率 数据 ,来 检验 其 标准 差 是 否 
还 为 5%。 我 们 测 得 这 36 月 的 月 收益 率 标准 差 为 6%。 以 显著 性 水 平 为 0. 05 ,检验 其 标准 
差 是 否 还 为 5% ,结果 如 何 ? 

(1) 写 出 原 假设 和 备 择 假设 

Ho:o: = (5%)?, Ho:o (5%)? 
(2) 使 用 卡 方 检验 


一 c2 
(3) X= =(36—1D)X(6%)/(5%): =50.4 
8 


(4) 查 表 得 到 卡 方 关键 值 。 对 于 显著 性 水 平 0. 05 ,由 于 是 双 尾 检验 ,两 边 的 拒绝 区 域 面 
积 都 为 0.025, 自 由 度 为 35, 因 此 关键 值 为 20.569 和 53. 203。 

(5) 由 于 50. 4 一 53. 203, 卡 方 统计 量 没有 落 在 拒绝 区 域 ,因此 我 们 不 能 拒绝 原 假设 。 

(6) 最 后 我 们 陈述 结论 : 该 股票 的 标准 差 没 有 显著 地 不 等 于 5%。 


8.1.8 两 个 总 体 方差 的 假设 检验 


双 尾 和 单 尾 检 验 的 原 假设 和 备 择 假设 如 下 。 
Ho:of =0, H.:of #0 
再 :oil 0, He:of < os 
Ho:of <o, 万 。:oi > 
下 统计 量 的 自由 度 为 m1 一 1 和 ns 一 1。 


F= 5s/5 
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注意 : 永远 把 较 大 的 一 个 样本 方差 放 在 分 子 上 , 即 亚 统计 量 大 于 1, 如 果 这 样 ,我 们 只 ” 转 
需 考虑 右边 的 拒绝 区 域 ,两 不 管 已 检验 是 单 尾 还 是 双 尾 检验 。 二 

例 8-6 我们 想 检验 IBM 股票 和 HP 股票 的 月 收益 率 的 标准 差 是 否 相 等 。 我们 选取 
2004 一 2006 年 这 36 个 月 的 月 收益 率 数据 ,来 检验 其 标准 差 是 否 还 为 5%。 我 们 测 得 这 36 
个 月 它们 的 月 收益 率 标准 差分 别 为 5% 和 6%。 以 显著 性 水 平 为 0.05, 假 设 检验 的 结果 
如 何 ? 

(1) 写 出 原 假设 和 备 择 假设 

Ho:o? 一 吗 ， H,:o? a 

(2) 使 用 下 检验 。 

(3) 计算 正统 计量 下 一 si/s3 一 0.0036/0.0025 一 1. 44。 

(4) 查 表 得 到 下 关键 值 2. 07。 

(5) 由 于 1.44 所 2.07, 下 统计 量 没有 落 在 拒绝 区 域 , 因 此 我 们 不 能 拒绝 原 假 设 。 

(6) 最 后 我 们 陈述 结论 : IBM 股票 和 HP 股票 的 标准 差 没 有 显著 地 不 等 。 


8.2 单个 样本 上 检验 的 Python 应 用 


单个 样本 上 检验 是 假设 检验 中 最 基本 也 是 最 常用 的 方法 之 一 。 与 所 有 的 假设 检验 一 
样 ,其 依据 的 基本 原理 也 是 统计 学 中 的 “小 概率 反 证 法 ”原理 。 通 过 单个 样本 1 检验 ,可 以 实 
现 样 本 均值 和 总 体 均 值 的 比较 。 检 验 的 基本 步骤 是 : 首先 提出 原 假设 和 备 择 假设 ,规定 好 
检验 的 显著 性 水 平 ,然后 确定 适当 的 检验 统计 量 , 并 计算 检验 统计 量 的 值 , 最 后 依据 计算 值 
和 临界 值 的 比较 做 出 统计 决策 。 

例 8-7 某 电脑 公司 销售 经 理 人 均 月 销售 500 台电 脑 , 现 采取 新 的 广告 政策 ,半年 后 , 随 
机 抽取 该 公司 20 名 销售 经 理 的 人 均 月 销售 量 数据 ,具体 数据 如 表 8-6 所 示 。 问 : 广告 策略 
是 否 能 够 影响 销售 经 理 的 人 均 月 销售 量 ? 


表 8-6 “人均 月 销售 量 单位 : 台 
编号 人 均 月 销售 量 编号 人 均 月 销售 量 
506 it 510 
2 503 12 504 
3 489 13 512 
4 501 14 499 
a 498 15 487 
6 497 16 507 
7 491 到 503 
8 502 18 488 
9 490 19 521 
10 511 20 517 


在 目录 G:\2glkx\data 下 建立 al8-1. xls 数据 文件 后 ,使 用 如 下 命令 取 数 。 


import pandas as pd 
import numpy as np 


04| 经 济 金 融 数据 分 析 及 其 Python 应 用 


# 读 取 数 据 并 创建 数据 表 , 名 称 为 data。 

pd data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al8—1.xls ')) 
# 查 看 数据 表 前 5 行 的 内 容 

data. head( ) 


得 到 前 5 条 记录 的 数据 如 下 : 


sale 
506 


AwWD PP 口 
心 
® 
ke 


# 取 sale 数据 

x = np.array(data[ ['sale']]) 

mu= np, mean(x) 

from scipy import stats as ss 

print mu, ss. ttest_lsamp(a = xr popmean = 500) 

mu 501.8 Ttest_lsampResult(statistic = array([ 0.83092969]), pvalue = array([ 0.41633356])) 

通过 观察 上 面 的 分 析 结 果 , 可 以 看 出 样本 均值 是 501. 8, 样 本 的 t 值 为 0.83092969,p 
值 为 0.41633356, 远 大 于 0.05, 因 此 不 能 拒绝 原 假设 ,也 就 是 说 ,广告 策略 不 能 影响 销售 经 
理 的 人 均 月 销售 量 。 


8.3 两 个 独立 样本 上 检验 的 Python 应 用 


Python 的 独立 样本 上 检验 是 假设 检验 中 最 基本 也 是 最 常用 的 方法 之 一 。 与 所 有 的 假 
设 检验 一 样 ,其 依据 的 基本 原理 也 是 统计 学 中 的 “小 概率 反 证 法 ”原理 。 通 过 独立 样本 + 检 
验 , 可 以 实现 两 个 独立 样本 的 均值 比较 。 两 个 独立 样本 上 检验 的 基本 步骤 也 是 首先 提出 原 
假设 和 备 择 假设 ,规定 好 检验 的 显著 性 水 平 , 然 后 确定 适当 的 检验 统计 量 , 并 计算 检验 统计 
量 的 值 , 最 后 依据 计算 值 和 临界 值 的 比较 作出 统计 决策 。 

例 8-8 表 8-7 给 出 了 a、b 两 个 基金 公司 各 管理 40 只 基金 的 价格 。 试 用 独立 样本 上 检 
验方 法 研究 两 个 基金 公司 所 管理 的 基金 价格 之 间 有 无 明显 的 差别 ( 设 定 显著 性 水 平 


为 5%)。 
表 8-7 a.b 两 个 基金 公司 各 管理 基金 的 价格 单位 : 元 
编号 基金 a 价格 基金 b 价格 
145 101 
2 147 98 
3 139 87 
4 138 106 
5 145 101 
38 138 105 
39 144 99 


40 102 108 
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虽然 这 里 两 只 基金 的 样本 相同 ,但 要 注意 的 是 : 两 个 独立 样本 上 检验 并 不 需要 两 样本 © 
数 相同 。 e 
在 目录 G:\2glkx\data 下 建立 al8-2. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


import pandas as pd 
import numpy as np 
# 读 取 数 据 并 创建 数据 表 , 名称 为 data。 
data = pd. DataFrame(pd. read_excel( 'G:\\2glkx\\data\\al8— 2.xls ')) 
# 查 看 数据 表 前 5 行 的 内 容 
data. head( ) 
fa fb 
145 101 
147 98 
139 87 
138 106 
135 105 
x = np.array(data[['fa']]) 
Y = np.array(data[['fb']]) 
from scipy. stats import ttest_ind 
t,p= ttest_ind(x, y) 
print t= ',t 
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print 'p= ',p 
得 到 如 下 结果 : 


t 
p 


通过 观察 上 面 的 分 析 结 果 , 可 以 看 出 :1 值 =14.04978844,p 值 王 4. 54986161e-23 , 远 小 
于 0.05, 因 此 需要 拒绝 原 假 设 。 也 就 是 说 ,两 家 基金 公司 被 调查 的 基金 价格 之 间 存 在 明显 
的 差别 。 


14. 04978844] 


三 : 间 
= [ 4.54986161e— 23] 


8.4 配对 样本 上 检验 的 Python 应 用 


Python 的 配对 样本 上 检验 过 程 也 是 假设 检验 中 的 方法 之 一 。 与 所 有 的 假设 检验 一 样 ， 
其 依据 的 基本 原理 也 是 统计 学 中 的 “小 概率 反 证 法 ”原理 。 通 过 配对 样本 + 检验 ,可 以 实现 
对 称 成 对 数据 的 样本 均值 比较 。 与 独立 样本 1 检验 的 区 别 是 : 两 个 样本 来 自 于 同一 总 体 ， 
而 且 数 据 的 顺序 不 能 调换 。 配 对 样本 : 检验 的 基本 步骤 也 是 首先 提出 原 假设 和 备 择 假设 ， 
规定 好 检验 的 显著 性 水 平 ,然后 确定 适当 的 检验 统计 量 , 并 计算 检验 统计 量 的 值 , 最 后 依据 
计算 值 和 临界 值 的 比较 做 出 统计 决策 。 

例 8-9 为 了 研究 一 种 政策 的 效果 , 特 抽取 了 50 只 股票 进行 了 试验 ,实施 政策 前 后 股票 
的 价格 如 表 8-8 所 示 。 试 用 配对 样本 上 检验 方法 判断 该 政策 能 否 引起 研究 股票 价格 的 明显 
变化 ( 设 定 显著 性 水 平 为 5%%) 。 
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pe 表 8-8 政策 实施 前 后 的 股票 价格 单位 : 元 
加 编号 政策 前 价格 政策 后 价格 

1 88. 60 75. 60 

2 85. 20 76. 50 

3 75. 20 68. 20 

48 82.70 78. 10 

49 82. 40 75. 30 

50 75. 60 69. 90 


在 目录 G:\2glkx\data 下 建立 al8-3. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


import pandas as pd 
import numpy as np 
# 读 取 数 据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame(pd. read_excel( 'G:\\2glkx\\data\\al8 -3.xls ')) 
# 查 看 数据 表 前 5 行 的 内 容 
data. head( ) 
qian hou 

0 88.599998 75.599998 

1 85.199997 76.500000 

2 75.199997 68.199997 

3 78.400002 67.199997 

4 76.000000 69.900002 

x = np.array(data[['qian']]) 

Y = np.array(data[['hou']]) 

from scipy. stats import ttest_rel 

t,p= ttest_ rel(x,y) 

print 't=',t 

print 'p= ',p 


得 到 如 下 结果 : 


t= [ 12.43054293] 

p= [ 9.13672682e-17] 

通过 观察 上 面 的 分 析 结 果 , 可 以 看 出 : t 值 ==12.43054293,p 值 ==9.13672682e-17, 远 小 
于 0.05, 因 此 需要 拒绝 原 假设 。 也 就 是 说 ,该 政策 能 引起 股票 价格 的 明显 变化 。 


8.5 单 样本 方差 假设 检验 的 Python 应 用 


方差 用 来 反映 波动 情况 ,经 常 应 用 在 金融 市 场 波 动 等 情形 。 单 一 总 体 方差 的 假设 检验 
的 基本 步骤 是 首先 提出 原 假设 和 备 择 假设 ,规定 好 检验 的 显著 性 水 平 , 然 后 确定 适当 的 检验 
统计 量 ,并 计算 检验 统计 量 的 值 ,最 后 依据 计算 值 和 临界 值 的 比较 作出 统计 决策 。 

例 8-10 为 了 研究 某 基金 的 收益 率 波动 情况 , 某 课题 组 对 该 只 基金 的 连续 50 天 的 收益 
率 情况 进行 了 调查 研究 ,调查 得 到 的 数据 经 整理 后 如 表 8-9 所 示 。 试 应 用 Python 对 该 数据 
资料 进行 假设 检验 其 方差 (收益 率 波动 ) 是 否 等 于 1%( 设 定 显 著 性 水 平 为 5%)。 
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表 8-9 某 基 金 的 收益 率 波动 情况 
编号 收益 率 


1 0. 564409196 
2 0. 264802098 
3 0. 947742641 
4 0. 276915401 
5 0. 118015848 


48 一 0. 967873454 
49 0. 582328379 
50 0.795299947 


在 目录 G:\2glkx\data 下 建立 al8-4. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


import pandas as pd 
import numpy as np 
# 读 取 数 据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al8 — 4.xls ')) 
# 查 看 数据 表 前 5 行 的 内 容 
data. head( ) 

bh syl 
0.564409 
0.264802 
0.947743 
0.276915 
5 0.118016 
# 取 收益 率 数据 
import numpy as np 
x = np.array(data[['syl']]) 
n= len(x) 
# 计 算 方 差 
s2 = np. var(x) 
# 计 算 卡 方 值 
chisquare = (n—1)* s2/0.01 
print chisquare 
1074.95071767 
查 表 Xa.us = 56 ( 卡 方 关键 值 ) 


卡 方 统计 值 1074. 95071767 二 卡 方 关 键 值 56, 卡 方 统计 值 落 在 拒绝 区 域 ,因此 我 们 拒绝 
原 假设 , 即 该 股票 的 方差 显著 地 不 等 于 1%。 


8.6 双 样 本 方差 假设 检验 的 Python 应 用 


双 样 本 方差 的 假设 检验 是 用 来 判断 两 个 样本 的 波动 情况 是 否 相同 ,在 金融 市 场 领 域 应 
用 研究 中 相当 广泛 。 其 基本 步骤 也 是 首先 提出 原 假设 和 备 择 假设 ,规定 好 检验 的 显著 性 水 
平 ,然后 确定 适当 的 检验 统计 量 ,并 计算 检验 统计 量 的 值 , 最 后 依据 计算 值 和 临界 值 的 比较 
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作出 统计 决策 。 

例 8-11 为 了 研究 某 两 只 基金 的 收益 率 波动 情况 是 否 相 同 , 某 课题 组 对 该 两 只 基金 连 
续 20 天 的 收益 率 情况 进行 了 调查 研究 ,调查 得 到 的 数据 经 整理 后 如 表 8-10 所 示 。 试 使 用 
Python 对 该 数据 资料 进行 假设 检验 其 方差 是 否 相同 ( 设 定 显 著 性 水 平 为 5%)。 


表 8-10 某 两 只 基金 的 收益 率 波动 情况 


编号 基金 A 收益 率 基金 B 收益 率 
. 0.424156 0. 261075 
2 0. 898346 0. 165021 
3 0. 521925 0.760604 
4 0. 841409 0.37138 
5 0.211008 0.379541 
18 0. 564409 0.967873 
9 0.264802 0.582328 
20 0.947743 0.7953 
准备 工作 如 下 : 


import pandas as pd 

import numpy as np 

from scipy import stats 

from statsmodels. formula. api import ols 

from statsmodels. stats. anova import anova_lm 


在 目录 G:\2glkx\data 下 建立 al8-5. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


# 读 取 数据 并 创建 数据 表 , 名 称 为 data。 
df = pd.DataFrame(pd. read_excel( 'G:\\2glkx\\data\\al8 — 5.xls')) 
# 查 看 数据 表 前 5 行 的 内 容 
df. head() 
returnA returnB 

0 0.424156 0.261075 

1 0.898346 0.165021 

2 0.521925 0.760604 

3 0.841409 0.371380 

4 0.211008 0.379541 


Python 中 的 anova_lm() 函 数 可 完成 两 样本 的 下 检验 , 即 双 样本 方差 的 假设 检验 。 


formula = 'returnR 一 returnB' # 一 隔离 因 变 量 和 自 变 量 (左边 因 变 量 , 右 边 自 变 量 ) 
model = ols(formula, df).fit() # 根据 公式 数据 建 模 , 拟 合 
results = anova lm(model) # 计算 F 和 P 


print results 
输入 完 后 , 按 回 车 键 ,得 到 如 下 的 分 析 结 果 。 


df sum sq mean sq F PR(>F) 
returnB 1.0 0.000709 0.000709 0.007744 0.93085 
Residual 18.0 1.648029 0.091557 NaN NaN 
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通过 观察 上 面 的 分 析 结 果 , 可 以 看 出 : 二 0.007744,p 值 = 0. 93085, 远 大 于 0. 05 , 因 
此 需要 接受 原 假设 ,也 就 是 说 ,两 只 基金 的 收益 率 方差 (波动 ) 显 著 相同 。 恒 


练 习 题 


对 本 章 例题 数据 文件 ,使 用 Python 重新 操作 一 遍 , 并 理解 命令 结果 的 统计 意义 。 


相关 分 析 与 一 元 回归 数据 
分 析 的 Python 应 用 


一 于 
草 


在 得 到 相关 数据 资料 后 ,我 们 要 对 这 些 数据 进行 分 析 ,研究 各 个 变量 之 间 的 关系 。 相 关 
分 析 是 应 用 非常 广泛 的 一 种 方法 。 它 是 不 考虑 变量 之 间 的 因果 关系 而 只 研究 变量 之 间 的 相 
关 关 系 的 一 种 统计 分 析 方法 。 本 章 首先 介绍 相关 分 析 的 基本 理论 及 具体 实例 应 用 。 

回归 分 析 是 经 典 的 数据 分 析 方 法 之 一 ,应 用 范围 非常 广泛 。 它 是 研究 分 析 某 一 变量 受 
到 其 他 变量 影响 的 分 析 方 法 ,其 基本 思想 是 以 被 影响 变量 为 因 变 量 , 以 影响 变量 为 自 变量 ， 
研究 因 变 量 与 自 变量 之 间 的 因果 关系 。 本 章 主要 介绍 简单 线性 回归 分 析 的 基本 理论 及 其 具 
体 实例 应 用 。 


9.1 相关 分 析 基 本 理论 


简单 相关 分 析 (bivariate) 是 最 简单 也 是 最 常用 的 一 种 相关 分 析 方法 ,其 基本 功能 是 可 
以 研究 变量 之 间 的 线性 相关 程度 并 用 适当 的 统计 指标 表示 出 来 。 


9.1.1 简单 相关 系数 的 计算 


两 个 随机 变量 (X,Y) 的 个 观测 值 为 (zi ,yi) ,i 二 1,2,…,n, 则 (X,Y) 之 间 的 相关 系数 
计算 公式 如 下 : 
>)(zi 一 却 (y 一 7) 
VM (Cr 一 二 2 > — 7) 

其 中 二 二 了 zx,5 一 二 Dy 分 别 为 随机 变量 X 和 Y 的 均值 。 
可 以 证 明 : 一 1 三 r 过 1, 即 |r| 二 1, 于 是 有 : 

当 |r|= 二 1 时 ,实际 y; 完全 落 在 回归 直线 上 ,y 与 x 完全 线性 相关 ; 
当 0 二 r 过 1 时 ,y 与 x 有 一 定 的 正 线性 相关 , 愈 接近 1 则 愈 好 ; 
当 一 1 过 和 过 0 时 ,y 与 x 有 一 定 的 负 线性 相关 , 愈 接近 一 1 则 愈 好 。 


9.1.2 简单 相关 系数 的 显著 性 检验 


由 于 抽样 误差 的 存在 , 当 相 关系 数 不 为 0 时 ,不 能 说 明 两 个 随机 变量 X 和 YY 之 间 的 相 
关系 数 不 为 0, 因 此 需要 对 相关 系数 是 否 为 0 进行 检验 , 即 检验 相关 系数 的 显著 性 。 
按照 假设 检验 的 步骤 ,简单 相关 系数 显著 性 检验 过 程 如 下 : 
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(1) 
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(1) 先 建立 原 假设 日 。 和 备 择 假设 HI， 

有 H,。:r 二 0, 相 关系 数 为 0 

Hi :r 隆 0, 相 关系 数 不 为 0 

(2) 建立 统计 量 :一 ~ Mn 一 2/ V1 一 六 ,其 中 7 为 相关 系数 ,n 为 样本 容量 。 

(3) 给 定 显著 水 平 ,一 般 为 0.05。 

(4) 计算 统计 量 的 值 。 

在 H。 成 立 的 条 件 下 ,t==r Vn 一 2/ V1 一 到 ,否定 域 gb 一 {|:| 二 ts (n 一 2)})。 

(5) 统计 决策 

对 于 给 定 的 显著 性 水 平 c, 查 : 分 布 表 得 临界 值 tus(z 一 2) ,将 1 值 与 临界 值 进行 比较 : 
当 |z| 过 tws(n 一 2) ,接受 Ho ,表示 总 体 的 两 变量 之 间 线 性 相关 性 不 显著 ; 

当 |i| 写 tws(n 一 2) ,拒绝 Ho ,表示 总 体 的 两 变量 之 间 线 性 相关 性 显著 ( 即 样本 相关 系数 


的 绝对 值 接近 1 ,并 不 是 由 于 偶然 机 会 所 致 ) 。 


9.2 ”相关 分 析 的 Python 应 用 


例 9-1 在 研究 广告 费 和 销售 额 之 间 的 关系 时 ,我 们 搜集 了 某 厂 1 月 到 12 月 各 月 广告 


费 和 销售 额 数据 ,如 表 9-1 所 示 。 试 分 析 广 告 费 和 销售 额 之 间 的 相关 关系 。 


表 9-1 广告 费 和 销售 额 数 据 单位 : 万 元 
月 份 广告 费 销售 额 
i 35 50 
2 50 100 
3 56 120 
4 68 180 
5 70 175 
6 100 203 
7 130 230 
8 180 300 
9 200 310 
10 230 325 
时 240 330 
Ld 250 340 


在 目录 G:\2glkx\data 下 建立 al9-1. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


import pandas as pd 
import numpy as np 
# 读 取 数据 并 创建 数据 表 , 名称 为 data。 
data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al9 — 1.xls ')) 
# 查 看 数据 表 前 5 行 的 内 容 
data. head( ) 
time adv sale 
0 1 35 50 
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e@ 


1 2 50 100 
2 3 56 120 
3 4 68 180 
4 5 370 175 


# 取 adv 和 sale 数据 

x = np.array(data[['adv']]) 

Y = np.array(data[['sale']]) 

import scipy. stats. stats as stats 

r= stats.pearsonr(x,Y)[0] 

print r 

[ 0.96368169] 

通过 观察 上 面 的 结果 ,可 以 看 到 变量 两 两 之 间 的 相关 系数 ,adv 和 sale 之 间 的 相关 系数 

为 0.96368169, 也 就 是 说 ,本 例 中 变量 之 间 相关 性 很 高 。 


9.3 一 元 线性 回归 分 析 基 本 理论 


9.3.1 一 元 线性 回归 分 析 模 型 


一 元 线性 回归 分 析 模 型 如 下 : 
Yi = bo tb Xite; 

其 中 : X 称 为 自 变量 ,Y 称 为 因 变 量 ,e 称 为 残 差 项 或 误差 项 。 

给 定 若干 的 样本 点 (X;,Y;) ,利用 最 小 二 乘法 可 以 找到 这 样 一 条 直线 , 它 的 截 距 为 , 斜 
率 为 ,符号 上 面 的 帽子 “*” 表 示 “ 估 计 值 ”*。 因 此 我 们 得 到 回归 结果 如 下 : 

Y= 6 十 bX 

截 距 的 含义 是 : X=0 时 Y 的 值 。 斜 率 的 含义 是 : 如 果 X 增加 1 个 单位 ,Y 增加 几 个 单 
位 。 

回归 的 目的 是 为 了 预测 因 变 量 Y, 已 知 截 距 和 和 斜率 的 估计 值 ,如 果 得 到 了 自 变量 X 的 
预测 值 ,我 们 就 很 容易 求 得 因 变 量 Y 的 预测 值 。 

例 9-1 某 公司 的 分 析 师 根据 历史 数据 ,做 了 公司 销售 额 增长 率 关于 GDP 增长 率 的 线 
性 回归 分 析 , 得 到 截 距 为 一 3. 2% ,斜率 为 2, 国家 统计 局 预测 今年 GDP 增长 率 为 9% , 问 该 
公司 今年 销售 额 增长 率 预计 为 多 少 ? 

解 : Y=—3.2% 二 2X= 一 3.2% 十 2* 9%==14.8% 


9.3.2 一 元 线性 回归 的 假设 


任何 模型 都 有 假设 前 提 , 一 元 线性 回归 模型 有 以 下 6 条 假设 。 

1. 自 变量 X 和 因 变 量 Y 之 间 存 在 线性 关系 。 

2. 残 差 项 的 期 望 值 为 0。 残 差 王 真实 的 Y 值 与 预测 的 Y 值 之 间 的 差 , 即 预测 的 误差 。 
期 望 值 为 0 即 有 些 点 在 回归 线 的 上 方 . 有 些 点 在 回归 线 的 下 方 , 且 均 匀 围 绕 回归 直线 ,这 符 
合 常理 。 

3. 自 变量 X 与 残 差 项 不 相关 。 残 差 项 本 身 就 是 Y 的 变动 中 不 能 被 X 的 变动 所 解释 的 
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4. 残 差 项 的 方差 为 常数 。 这 称 为 同方 差 性 。 如 果 残 差 项 的 方差 不 恒定 , 称 为 异 方 


5. 残 差 项 与 残 差 项 之 间 不 相关 。 如 果 残 差 项 与 残 差 项 之 间 相 关 , 称 为 自 相关 或 序列 
相关 。 

6. 残 差 项 为 正 态 分 布 的 随机 变量 。 

9.3.3 方差 分 析 


做 完了 一 个 一 元 回归 模型 之 后 ,我 们 通常 想 要 知道 回归 模型 做 得 好 不 好 。 方 差分 析 可 
以 用 来 评价 回归 模型 的 好 坏 。 方 差分 析 的 结果 是 一 张 表 ,如 表 9-2 所 示 


表 9-2 方差 分 析 


自由 度 平方 和 均 方 和 MS 
回归 k=1 回归 平方 和 RSS 回归 均 方 和 MSR==RSS/k 
误差 太一 和 误差 平方 和 SSE 误差 均 方 和 MSE= SSE/(n 一 2) 
总 和 n—1l 总 平方 和 SST 


我 们 可 以 从 方差 分 析 表 里 求 得 决定 系数 和 估计 的 标准 误 , 用 来 评价 回归 模型 的 好 坏 。 

回归 的 自由 度 为 k,k 为 自 变 量 的 个 数 。 我 们 在 一 元 线性 回归 ,所 以 自 变 量 的 个 数 为 1 
误差 的 自由 度 为 n 一 2,n 是 样本 量 。 总 自由 度 为 以 上 两 个 自由 度 之 和 。 

总 平方 和 SST 代表 总 的 变动 ,回归 平方 和 RSS 代表 可 以 被 回归 方程 解释 ( 即 可 以 被 自 


lL 可 Lb E 
变量 解释 ) 的 变动 ,误差 平方 和 SSE 代表 不 被 回归 方程 解释 ( 即 被 残 差 所 解释 ) 的 变动 。 总 
平方 和 为 以 上 两 个 平方 和 之 和 。SST 王 RSS 十 SSE 


均 方 和 等 于 各 自 的 平方 和 除 以 各 自 的 自由 度 
几乎 所 有 的 统计 软件 都 能 输出 方差 分 析 表 。 有 了 方差 分 析 表 ,就 能 很 容易 求 得 决定 系 
数 和 估计 的 标准 误 。 


9.3.4 决定 系数 


决定 系数 等 于 回归 平方 和 除 以 总 平方 和 ,公式 为 
Re -RSS _ 1 SSE 
SST SST 
决定 系数 的 含义 是 : X 的 变动 可 以 解释 多 少 比 例 的 Y 的 变动 。 例 如 0.7 的 含义 是 : X 
的 变动 可 以 解释 70% 的 Y 的 变动 。 注 意 : 是 用 X 来 解释 Y 的 


, 酒 众 地 说 .Re 一 可 以 被 解释 的 变动 
六 用 放生 “ 二 的 在 动 


1 一 不 可 以 被 解释 的 变动 
总 的 变动 
显然 ,决定 系数 越 大 ,表示 回归 模型 越 好 。 


另外 ,对 于 一 元 回归 ,决定 系数 还 等 于 自 变量 和 因 变 量 的 样本 相关 系数 的 平方 , 即 R* 
9.3.5 估计 的 标准 误 


估计 的 标准 误 SEE 等 于 残 差 均 方 和 的 平方 根 ,公式 为 
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SEE = VSSE7/( 一 2) = VMSE 
SSE 是 残 差 的 平方 和 ,MSE 就 相当 于 残 差 的 方差 ,而 SEE 就 相当 于 残 差 的 标准 差 。 显 
然 ,估计 的 标准 误 越 小 ,表示 回归 模型 越 好 。 
例 9-2 我 们 做 了 一 个 线性 回归 模型 ,得 到 如 表 9-3 所 示 的 方差 分 析 表 。 


表 9-3 方差 分 析 


自由 度 平方 和 均 方 和 MS 
回归 1 8000 8000 
误差 50 2000 40 
总 和 51 10000 


则 决定 系数 和 估计 的 标准 误 分 别 多 少 ? 
解 : 决定 系数 为 0.8, 估 计 的 标准 误 为 6.32。 


9.3.6 回归 系数 的 假设 检验 


回归 系数 的 假设 检验 是 指 检验 回归 系数 ( 截 距 和 斜率 ) 是 否 等 于 某 个 常数 。 通 常 要 检验 
斜率 系数 是 否 等 于 0(Ho :5 二 0) ,这 称 为 斜率 系数 的 显著 性 检验 。 如 果 不 能 拒绝 原 假 设 , 即 
斜率 系数 没有 显著 的 不 等 于 0, 那 就 说 明 自 变量 X 和 因 变 量 Y 的 线性 相关 性 不 大 ,回归 是 
失败 的 。 
这 是 一 个 1 检验 ,统计 量 自由 度 为 一 2, 计 算 公式 为 ; (一生 。 

其 中 ss 为 斜率 系数 的 标准 误 。 

例 9-3 ”我 们 做 了 一 个 线性 回归 模型 ,得 到 Y==0. 2 十 1. 4X。 截 距 系数 的 标准 误 为 0.4, 斜 
率 系数 的 标准 误 为 0.2, 问 : 截 距 和 斜率 系数 的 显著 性 检验 结果 如 何 ? 设 显 著 性 水 平 为 5%。 

解 : 截 距 系数 的 显著 性 检验 : 计算 z 统 计量,: 一 0. 2/0. 4 王 0.5 一 2(z 检验 的 临界 点 ) , 因 
此 我 们 不 能 拒绝 原 假设 , 即 认为 截 距 系数 没有 显著 的 不 等 于 0。 

其 次 是 斜率 系数 的 显著 性 检验 : 计算 1 统计 量 ,1 二 1.4/0.2= 二 7 二 2(z 检验 的 临界 点 ) , 因 
此 我 们 拒绝 原 假设 , 即 认为 斜率 系数 显著 不 等 于 0。 这 说 明 我 们 的 回归 做 得 不 错 。 


9.3.7 回归 系数 的 置信 区 间 


置信 区 间 估 计 与 假设 检验 本 质 上 是 一 样 的 ,一 般 公 式 为 : 点 估计 士 关键 值 X 点 估计 得 
标准 差 。 回 归 系 数 的 置信 区 间 也 是 这 样 的 。 


斜率 系数 的 置信 区 间 为 : 广 士 sa ,其 中 , 是 自由 度 为 n 一 2 的 1 关键 值 。 

例如 我 们 做 了 一 个 线性 回归 模型 ,得 到 Y=0.2 十 1. 4X。 截 距 系数 的 标准 误 为 0. 4, 斜 
率 系数 的 标准 误 为 0. 2, 求 截 距 和 斜率 系数 的 置信 度 为 95% 的 置信 区 间 。 

截 距 系数 的 置信 区 间 ,假设 充分 大 ,5% 的 显著 性 水 平 的 1 关键 值 一 般 近 似 为 2, 所 以 
我 们 得 到 置信 区 间 为 : 0.2 士 2X0.4, 即 [一 0.6,1.0]。0 包括 在 置信 区 间 中 ,所 以 我 们 认为 
截 距 系 数 没有 显著 地 不 等 于 0。 

斜率 系数 的 置信 区 间 : 1.4 士 2X0.2, 即 [1.0,1. 8]。0 没有 包括 在 置信 区 间 中 ,所 以 我 


第 9 章 ”相关 分 析 与 一 元 回归 数据 分 析 的 Python 应 用 @ 


们 认为 斜率 系数 显著 地 不 等 于 0。 


9.4 一 元 线性 回归 数据 分 析 的 Python 应 用 


简单 线性 回归 分 析 也 称 一 元 线性 回归 分 析 , 是 最 简单 也 是 最 基本 的 一 种 回归 分 析 方法 。 
简单 线性 回归 分 析 的 特色 是 只 涉及 一 个 自 变 量 , 它 主要 用 来 处 理 一 个 因 变量 与 一 个 自 变量 
之 间 的 线性 关系 ,建立 变量 之 间 的 线性 模型 并 根据 模型 进行 评价 和 预测 。 

例 9-4 某 公司 为 研究 销售 人 员 数 量 对 新 产品 销售 额 的 影响 ,从 其 下 属 多 家 公司 中 随 
机 抽取 10 个 子 公司 ,这 10 个 子 公司 当年 新 产品 销售 额 和 销售 人 员 数 量 统计 数据 如 表 9-4 
所 示 。 试 用 简单 回归 分 析 方 法 研究 销售 人 员 数 量 对 新 产品 销售 额 的 影响 。 

表 9-4 新 产品 销售 额 和 销售 人 员 数 量 统计 数据 


地 区 新 产品 销售 额 /万 元 销售 人 员 数 量 / 人 
3 385 17 
2 251 10 
3 701 44 
4 479 30 
5 433 22 
6 411 15 
7 355 11 
8 217 5 
9 581 31 
10 653 36 


9.4.1 应 用 Python 的 statsmodels 工具 作 一 元 回归 分 析 
在 目录 G:\2glkx\data 下 建立 al9-2. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


import pandas as pd 
import numpy as np 
# 读 取 数据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al9 ~ 2.xls ')) 
data. head( ) 
dq xse rs 
385 17 
251 10 
701 44 
479 30 
433 22 


WD-Po 
u mw 


1. 对 数据 进行 描述 性 分 析 
输入 如 下 命令 : 


data. describe( ) 
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## 此 命令 的 含义 是 对 销售 额 xse、 人 数 rs 等 变量 进行 描述 性 统计 分 析 。 
输入 完 后 , 按 回 车 键 ,得 到 如 下 的 分 析 结 果 : 


e@@ 


dq xse rs 
count 10.00000 10.000000 10.000000 
mean 5.50000 446.600000 22.100000 
std 3.02765 160.224287 12.705642 
min 1.00000 217.000000 5.000000 
25% 3.25000 362.500000 12.000000 
50% 5.50000 422.000000 19.500000 
75% 7.75000 555.500000 30.750000 
max 10.00000 701.000000 44.000000 


通过 观察 上 面 的 结果 ,可 以 得 到 很 多 信息 ,包括 2 个 计数 、2 个 平均 值 .2 个 标准 差 .2 个 
最 小 值 .2 个 第 一 百 分 位 数 、2 个 第 2 百 分 位 数 、2 个 第 三 百 分 位 数 、2 个 最 大 值 等 。 

更 多 信息 描述 如 下 。 

(1) 最 小 值 (Smallest) 

变量 xse 最 小 值 是 217. 0。 

变量 rs 最 小 值 是 5. 00。 

(2) 百 分 位 数 

可 以 看 出 变量 xse 的 第 1 个 四 分 位 数 (25%) 是 362. 5, 第 3 个 四 分 位 数 (75%) 是 555. 5。 
变量 rs 的 第 1 个 四 分 位 数 (25%) 是 12. 00, 第 3 个 四 分 位 数 (75%) 是 30.75。 

(3) 平均 值 (Mean) 

变量 xse 平均 值 的 数据 值 分 别 是 446. 6。 

变量 rs 平均 值 的 数据 值 分 别 是 22. 10。 

(4) 最 大 值 (Largest) 

变量 xse 最 大 值 是 701. 0。 

变量 rs 最 大 值 是 44. 00。 


2. 对 数据 进行 相关 分 析 


x = np.array(data[['rs']]) 

Y = np.array(data[['xse']]) 

import scipy. stats. stats as stats 

r= stats. pearsonr(x, y)[0] 

# 本 命令 的 含义 是 对 新 产品 销售 额 销售 人 员 人 数 等 变量 进行 相关 性 分 析 


print r 

输入 完 后 , 单 击 回 车 键 ,得 到 如 下 的 分 析 结 果 : 

[ 0.96990621] 

通过 观察 上 面 的 结果 ,可 以 看 出 销售 额 xse 和 人 数 rs 之 间 的 相关 系数 为 0. 96990621， 
这 说 明 两 个 变量 之 间 存 在 很 强 的 正 相关 关系 ,所 以 我 们 可 以 做 回归 分 析 。 


除了 上 面 介绍 的 通过 数组 进行 相关 分 析 外 ,还 可 通过 如 下 的 数据 框 来 进行 相关 分 析 , 代 
码 如 下 : 
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data. corr() 


得 到 如 下 结果 : 


dq xse rs 
dq 1.000000 0.218510 0.085207 
xse 0.218510 1.000000 0.969906 
rs 0.085207 0.969906 1.000000 


可 见 ,xse 与 rs 的 相关 系数 是 0. 969906, 它 们 之 间 高 度 相关 ,因此 可 进一步 做 回归 
分 析 。 


3. 一 元 回归 分 析 的 Python 的 statsmodels 工具 应 用 


一 元 回归 分 析 的 Python 的 statsmodels 工具 应 用 程序 代码 如 下 : 


import statsmodels.api as sm 
import pandas as pd 
import numpy as np 
# 读 取 数 据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame(pd. read_excel('G:\\2gljcx\N\dataN\Nal9 一 2.xls ')) 
data. head( ) 
dq xse rs 
385 17 
251 10 
44 
479 30 
433 22 
= np.array(data[ ['rs']]) 
= np.array(data[ ['xse']]) 
# model matrix with intercept 
X = sm.add constant(x) 
#1least squares fit 
model = sm.OLS(y, xX) 
fit = model.fit() 
print fit. summary() 


得 到 如 下 结果 : 


U ww PP 
| 
oS 
已 


0 
证 
2 
3 
4 
至 
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OLS Regression Results 


0.941 


Dep. Variabl Y R- squared 

Model : OLS Adj. R- squared: 0.933 
Method : Least Squares F- statistic: 126.9 
Date: Fri, 23 Sep 2016 Prob (了 - statistic): 3.46e— 06 
Time: 20:16:31 Log— Likelihood: 一 50.301 
No. Observations : 10 AIC: 104.6 
Df Residuals: 8 BIC: 105.2 
Df Model : 1 


Covariance Type: 


std err P>|t| [95.0% Conf. Int.] 
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const 176. 2952 27.327 0.000 
近 xd 12.2310 1.086 0.000 

Omnibus: 0.718 Durbin— Watson: 1.407 

Prob(Omnibus) : 0.698 Jarque- Bera (JB): 0.588 

Skew: -0.198 Prob(JB): 0.745 

Kurtosis: 1.879 Cond. No. 52.6 


通过 观察 上 面 的 结果 ,可 以 看 出 模型 的 下 值 F= 二 126.9,p 值 为 0, 说 明 该 模型 整体 上 是 
非常 显著 的 。 模 型 的 可 决 系数 R-squared 王 0. 941 ,修正 的 可 决 系数 Adjusted R-squared 一 
0.933 ,说 明 模型 的 解释 能 力 是 很 强 的 。 

模型 的 回归 方程 是 : 

xse = 12. 2310 X rs 十 176. 2952 

变量 rs 的 系数 标准 误 是 1. 086,t 值 为 11. 267,p 值 为 0. 000 ,系数 是 非常 显著 的 。 常 数 

项 的 系数 标准 误 是 27. 327,t 值 为 6.451,p 值 为 0.000, 系 数 是 非常 显著 的 。 


# 画 线性 回归 
pylab. scatter(x, y) 
pylab. plot(x, fit.fittedvalues) 


得 到 一 元 线性 回归 的 图 形 , 如 图 9-1 所 示 。 
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图 9-1 一 元 线性 回归 分 析 


9.4.2 应 用 sklearn 工具 作 一 元 回归 分 析 
下 面 应 用 sklearn 工具 做 一 元 回归 分 析 , 输 入 如 下 命令 : 


from sklearn import linear model 

x = np.array(data[['rs']]) 

Y = np.array(data[ ['xse']]) 

clf = linear model.LinearRegression() 
clf.fit (x,y) 

clf.coef_ 

Out[5]: array([[ 12.2309863]]) 

clf. intercept_ 

Out[6]: array([ 176.2952027]) 
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const 176. 2952 27.327 0.000 
近 xd 12.2310 1.086 0.000 

Omnibus: 0.718 Durbin— Watson: 1.407 

Prob(Omnibus) : 0.698 Jarque- Bera (JB): 0.588 

Skew: -0.198 Prob(JB): 0.745 

Kurtosis: 1.879 Cond. No. 52.6 


通过 观察 上 面 的 结果 ,可 以 看 出 模型 的 下 值 F= 二 126.9,p 值 为 0, 说 明 该 模型 整体 上 是 
非常 显著 的 。 模 型 的 可 决 系数 R-squared 王 0. 941 ,修正 的 可 决 系数 Adjusted R-squared 一 
0.933 ,说 明 模型 的 解释 能 力 是 很 强 的 。 

模型 的 回归 方程 是 : 

xse = 12. 2310 X rs 十 176. 2952 

变量 rs 的 系数 标准 误 是 1. 086,t 值 为 11. 267,p 值 为 0. 000 ,系数 是 非常 显著 的 。 常 数 

项 的 系数 标准 误 是 27. 327,t 值 为 6.451,p 值 为 0.000, 系 数 是 非常 显著 的 。 


# 画 线性 回归 
pylab. scatter(x, y) 
pylab. plot(x, fit.fittedvalues) 


得 到 一 元 线性 回归 的 图 形 , 如 图 9-1 所 示 。 
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图 9-1 一 元 线性 回归 分 析 


9.4.2 应 用 sklearn 工具 作 一 元 回归 分 析 
下 面 应 用 sklearn 工具 做 一 元 回归 分 析 , 输 入 如 下 命令 : 


from sklearn import linear model 

x = np.array(data[['rs']]) 

Y = np.array(data[ ['xse']]) 

clf = linear model.LinearRegression() 
clf.fit (x,y) 

clf.coef_ 

Out[5]: array([[ 12.2309863]]) 

clf. intercept_ 

Out[6]: array([ 176.2952027]) 
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clf. score(x, y) 
Out[7]: 0.9407180505879883 


可 见 模型 的 可 决 系数 0. 9407180505879883 ,说 明 模型 的 解释 能 力 是 很 强 的 。 
模型 的 回归 方程 是 : 


xse = 12. 23lrs 十 176. 295 
若 要 求 rs 一 40 时 相应 xse 预测 值 : 


# 输 入 自 变 量 人 数 预测 因 变量 
clf.predict(40) 
Out[8]: array([[ 665.53465483]]) 


9.5 自 相关 性 诊断 的 Python 应 用 


例 9-5 某 公司 1991 一 2005 年 的 开发 经 费 和 新 产品 利润 数据 如 表 9-5 所 示 。 利 用 回归 
分 析 开 发 经 费 对 新 产品 利润 的 影响 。 


表 9-5 开发 经 费 和 新 产品 利润 数据 


开发 费用 /万 元 新 产品 利润 /万 元 
35 690 
38 734 
42 788 
45 870 
52 1038 
65 1280 
72 1434 
81 1656 
103 2033 
113 2268 
119 2451 
133 2819 
159 3431 
198 4409 
260 5885 


在 目录 G:\2glkx\data 下 建立 al9-5. xls 数据 文件 后 ,使 用 如 下 命令 读 取 数 据 : 


import statsmodels.api as sm 
import pandas as pd 
import numpy as np 
# 读 取 数据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame( pd. read_excel( 'G:\\2glkx\\data\\al9 — 5.xls ')) 
data. head() 

data. head( ) 

kf lr 
0 35 690 
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es@@ 


1 38 734 
2 42 788 
3 45 870 
4 52 1038 


做 0LS 一 元 线性 回归 分 析 

x = np.array(data[['1r']]) 

Y = np.array(data[['kf']]) 

# model matrix with intercept 
X = sm.add constant(x) 
#1least squares fit 

model = sm.OLS(y, X) 

fit = model.fit() 

print fit. summary() 


得 到 如 下 结果 : 
OLS Regression Results 

Dep. Variable: 

Model: OLS Adj. R- squared: 0.997 
Method: Least Squares F- statistic: 5535, 
Date: Sat, 29 Oct 2016 Prob (F- statistic): 1.74e 一 18 
Time: 15:05:28 Log- Likelihood: =37.996 
No. Observations: 15 AIC: 73.99 
Df Residuals: 13 BIC: 81.41 
Df Model: 1 

Covariance Type: nonrobust 


Omnibus: 1.182 Durbin - Watson: 0.474 
Prob(Omnibus) : 0.554 Jarque - Bera (JB): 1.011 
Skew: 0.515 Prob(JB) : 0.603 
Kurtosis: 2.255 Cond. No. 4.54e+ 03 


从 上 可 见 ,Durbin-Watson 统计 量 为 0.474, 所 以 存在 自 相关 。 
下 面 使 用 差分 法 来 解决 自 相 关 问 题 。 当 模型 存在 自 相 关 问 题 时 ,可 以 采用 差分 法 来 解 


决 自 相关 问题 。 差 分 法 的 具体 计算 过 程 如 下 : 


令 Ayi 二 yi 一 yi-1 ;Azy 二 Tj 一 Zi ti 二 1,… ,nj 二 1,…,p。 利 用 Ay; 和 Ax 数据, 采 


取 最 小 二 乘法 对 下 述 回 归 模 型 的 参数 进行 拟 合 , 可 以 求 出 经 验 回归 参数 B,j 一 1,…,p。 


Ay 一 凡 十 BAra 十 … 十 BAzrp 十 si，1 一 1 7 
下 面 给 出 差分 法 消除 自 相 关 的 Python 代码 : 
x = np.array(data[['lr']]) 


Y = np.array(data[['kf']]) 
# model matrix with intercept 
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X = sm.add constant(x) 
#1least squares fit 
model = sm.OLS(y, xX) 
fit = model.fit() 
print fit. summary() 


得 到 如 下 结果 : 


OLS Regression Results 


Dep. Variable: Y R- squared: 0.985 
Model: OLS Adj. R- squared: 0.984 
Method: Least Squares F- statistic: 777.9 
Date: Sat, 29 Oct 2016 Prob (F- statistic): 2.79e- 12 
Time: 15:09:18 Log— Likelihood: 一 29.448 
No. Observations : 14 AIC: 62.90 
Df Residuals: 12 BIC: 64.17 
Df Model: 1 

Covariance Type: nonrobust 


Omnibus: 12.469 ”Durbin - Watson: 2.194 


Prob( Omnibus): 0.002 Jarque - Bera (JB): 8.230 
Skew: 1.508 Prob(JB) : 0.0163 
Kurtosis: 5.239 Cond. No. M3 


由 上 可 见 ,Durbin-Watson 统计 量 为 2.194, 自 相关 问题 消除 ,说 明 采 取 差 分 法 能 够 解决 
自 相 关 问 题 。 


练 习 题 


对 本 章 例题 的 数据 文件 ,使 用 Python 重新 操作 一 遍 。 


多 元 回归 数据 分 析 的 Python 应 用 


10.1 多 元 线性 回归 分 析 基 本 理论 


多 元 线性 回归 分 析 , 也 叫 作 多 重 线性 回归 分 析 , 是 最 为 常用 的 一 种 回归 分 析 方法 。 多 元 
线性 回归 分 析 涉及 多 个 自 变 量 , 它 用 来 处 理 一 个 因 变 量 与 多 个 自 变 量 之 间 的 线性 关系 ,建立 
变量 之 间 的 线性 模型 并 根据 模型 进行 评价 和 预测 。 


10.1.1 多 元 线性 回归 模型 


多 元 线性 回归 就 是 用 多 个 自 变量 来 解释 因 变 量 。 多 元 线性 回归 模型 如 下 : 
Yi = bo tb Xi bo Xz t+ bX te; 
利用 最 小 二 乘法 可 以 找到 这 样 一 条 直线 : 
Y 一 页 十 页 Xi 十 到 Xe 十 … 十 到 和 

如 果 得 到 名 和 多 个 如 (j 一 1,… ,以 及 所 有 自 变量 XiG 一 1,…,R) 的 预测 值 , 就 可 求 得 
因 变量 Y; 的 值 。 

例 10-1 某 公司 的 分 析 师 根据 历史 数据 ,做 了 公司 销售 额 增长 率 关 于 GDP 增长 率 和 
公司 销售 人 员 增 长 率 的 线性 回归 分 析 , 得 到 截 距 为 一 3.2%, 关 于 GDP 增长 率 的 斜率 为 2， 
关于 公司 销售 人 员 增 长 率 的 斜率 为 1. 2, 国 家 统计 局 预测 今年 GDP 增长 率 为 9% ,公司 销售 
部 门 预计 公司 销售 人 员 今年 将 减少 20%。 问 : 该 公司 今年 销售 额 增长 率 预计 为 多 少 ? 

解 : Y= 一 3.2% 十 2Xi 十 1.2Xs 二 一 3.2% 十 2X9% 十 1.2X( 一 20%)==14.8%。 


10.1.2 方差 分 析 


与 一 元 线性 回归 类 似 , 多 元 线性 回归 的 方差 分 析 如 表 10-1 所 示 。 
表 10-1 方差 分 析 


自由 度 平方 和 均 方 和 MS 
回归 k 回归 平方 和 RSS 回归 均 方 和 MSR=RSS/k 
误差 一 一 误差 平方 和 SSE 误差 均 方 和 MSE==SSE/(n 一 & 一 1) 


总 和 7 一 1 总 平方 和 SST 
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我 们 可 以 从 方差 分 析 表 10-1 中 求 得 决定 系数 和 估计 的 标准 误 , 用 来 评价 回归 模型 的 © 
好 坏 。 @ 

回归 的 自由 度 为 k,k 为 自 变 量 的 个 数 。 误 差 的 自由 度 为 n 一 k 一 1,n 是 样本 量 。 总 自由 
度 为 以 上 两 个 自由 度 之 和 。 

总 平方 和 SST 依然 等 于 回归 平方 和 与 误差 平方 和 之 和 。SST 王 RSS 十 SSE。 

均 方 和 等 于 各 自 的 平方 和 除 以 各 自 的 自由 度 , 如 表 10-1 所 示 。 

有 了 上 面 的 方差 分 析 表 ,就 能 很 容易 求 得 决定 系数 和 估计 的 标准 误 ,以 判断 回归 模型 的 
好 坏 。 


10.1.3 决定 系数 


决定 系数 等 于 回归 平方 和 除 以 总 平方 和 ,公式 为 
Re = RSS_ 1_ SSE 
SST SST 
和 一 元 回归 一 样 ,多 元 回归 的 决定 系数 的 含义 仍然 是 : 所 有 自 变量 X 的 变动 可 以 解释 
多 少 比例 的 Y 的 变动 。 决 定 系数 越 大 ,表示 回归 模型 越 好 。 但 是 对 于 多 元 线性 回归 , 随 着 
自 变 量 个 数 的 增加 ,决定 系数 总 是 变 大 ,无 论 新 增 的 自 变量 是 否 对 因 变 量 有 解释 作用 。 因 
此 ,我 们 就 要 调整 决定 系数 如 下 : 
2 n—l1 2 
Rs TR 
调整 后 的 决定 系数 不 一 定 随 着 自 变量 个 数 k 的 增加 而 增 大 。 因 此 调整 后 的 决定 系数 能 
有 效 地 比较 不 同 自 变量 个 数 的 回归 模型 的 优 劣 。 
关于 调整 后 的 决定 系数 ,还 要 注意 如 下 两 点 : 
(1) 调整 后 的 决定 系数 总 是 小 于 等 于 未 调整 的 决定 系数 。 
(2) 调整 后 的 决定 系数 有 可 能 小 于 0。 


10.1.4 估计 的 标准 误 


估计 的 标准 误 SEE 等 于 残 差 均 方 和 的 平方 根 ,公式 为 
SEE = VSSE/(n—k—1) = VMSE 
显然 ,估计 的 标准 误 越 小 ,表示 回归 模型 越 好 。 


10.1.5 回归 系数 的 t 检验 和 置信 区 间 


与 一 元 线性 回归 类 似 , 回 归 系 数 的 + 检验 是 指 检验 回归 系数 是 否 等 于 某 个 常数 。 通 常 
要 检验 斜率 系数 是 否 等 于 0(H,:6; 一 0), 这 称 为 斜率 系数 的 显著 性 检验 。 如 果 不 能 拒绝 原 
假设 , 即 斜率 系数 没有 显著 地 不 等 于 0, 那 就 说 明 自 变量 X; 和 因 变 量 Y 的 线性 相关 性 不 大 ， 
回归 是 失败 的 。 


这 是 一 个 4 检验 ,t 统 计量 自由 度 为 一 一 1, 计 算 公式 为 : /二 各 
其 中 5; 为 斜率 系数 的 标准 误 。 
斜率 系数 的 置信 区 间 为 : 乌 士 sa 。 其 中 , 是 自由 度 为 一 一 1 的 :关键 值 。 
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pd 例如 ,我 们 做 了 一 个 二 元 线性 回归 模型 ,得 到 的 结果 如 表 10-2 所 示 。 

a 表 10-2 变量 系数 表 
变量 系数 统计 量 
bo 人 5 1. 28 
b 1.2 全 
b» 一 03 0.92 


斜率 系数 b 的 置信 和 度 为 95% 的 置信 区 间 为 多 少 ? 


1.2 


,sb =1. 2/2. 4=0.5。 


Sb 


由 于 统计 量 一 2. 4 一 : 


[1.2 一 2X0.5,1.2 十 2X0.5] 一 [0.2,2.2]。 
由 于 0 没有 包含 在 置信 区 间 中 ,所 以 斜率 系数 bb 显著 地 不 等 于 0。 


10.1.6 回归 系数 的 F 检验 


回归 系数 的 下 检验 用 来 检验 斜率 系数 是 否 全 部 都 等 于 0。 其 原 假设 是 所 有 和 斜率 系数 都 
等 于 0, 备 择 假设 是 至 少 有 一 个 斜率 系数 不 等 于 0。 


Ho:b ==bo =… 二 b= 0， H,: 至 少 有 一 个 b) 关 0 
下 统计 量 的 分 子 自 由 度 和 分 母 自 由 度 分 别 为 和 一 & 一 1, 统 计量 的 计算 公式 如 下 : 
F = MSR RSS/k 


MSE SSE/(n—k—1) 
注意 : 下 检验 看 上 去 是 双 尾 检验 ,但 请 当 作 单 尾 检验 来 做 ,其 拒绝 区 域 只 在 分 布 的 右边 
一 边 。 
回归 系数 的 上 检验 是 对 单个 斜率 系数 做 检验 ,而 回归 系数 的 下 检验 是 对 全 部 斜率 系数 
的 检验 。 如 果 我 们 没有 拒绝 原 假设 ,说 明 所 有 的 斜率 系数 都 没有 显著 地 不 等 于 0, 即 所 有 自 
变量 和 因 变 量 Y 的 线性 相关 性 都 不 大 ,回归 模型 做 得 不 好 。 如 果 我 们 能 够 拒绝 原 假设 ,说 
明 至 少 有 一 个 斜率 系数 显著 地 不 等 于 0, 即 至 少 有 一 个 自 变 量 可 以 解释 Y, 回 归 模 型 做 得 
不 错 。 
例如 我 们 抽取 了 一 个 样本 量 为 43 的 样本 ,做 了 一 个 三 元 线性 回归 ,得 到 RSS 一 4500， 
SSE 王 1500M, 以 显著 性 水 平 为 0. 05 检验 是 否 至 少 有 一 个 斜率 系数 显著 地 不 等 于 0。 假 设 
检验 的 结果 如 何 ? 
MSR = RSS/k = 4500/3 = 1500 
MSE = SSE/(n—k—1) = 1500/(43 一 3 一 1) = 38.4 
F= MSR/MSE = 1500/38.4 = 39 
查 下 统计 表 得 关键 值 为 2. 84。 
由 于 2. 84 二 39, 下 统计 量 落 在 拒绝 区 域 ,因此 我 们 要 拒绝 原 假设 。 
最 后 结论 : 至 少 有 一 个 斜率 系数 显著 地 不 等 于 0。 


10.1.7 虚拟 变量 
某 些 回归 分 析 中 ,需要 定性 的 使 用 自 变量 , 称 为 虚拟 变量 。 使 用 虚拟 变量 的 目的 是 考察 
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不 同类 别 之 间 是 否 存在 显著 差异 。 
虚拟 变量 的 取 值 为 0 或 1 ,两 类 时 ,只 需 一 个 虚拟 变量 ,如 果 ) 类, 则 需 ” 一 1 个 虚拟 5 


变量 。 
例如 ,在 研究 工作 水 平 同学 历 和 工作 年 限 的 关系 时 ,我 们 以 Y 表示 工作 水 平 ,以 Xi 表 
示 学 历 , 以 X, 表示 工作 年 限 ,同时 引进 虚拟 变量 D, 其 取 值 如 下 : 

男性 


0， 女性 


则 可 构造 如 下 理论 回归 模型 : 
YY 一 房 十 PXI 十 RX 十 BRD 二 es 
为 了 模拟 某 商品 销售 量 的 时 间 序 列 的 季节 影响 ,我 们 需要 引入 4 一 1=3 个 虚拟 变量 
如 下 : 
1， 如 果 为 第 1 季度 1， 如 果 为 第 2 季度 
Ql = ; 多 三 ; 
机 其 他 情况 | 其 他 情况 
1， 如 果 为 第 3 季度 
| 其 他 情况 
则 可 构造 如 下 理论 回归 模型 ; 
Y=B+BQ 十 Q: 十 记 Q: 十 s 
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例 10-2 为 了 检验 美国 电力 行业 是 否 存在 规模 经 济 , Nerlove(1963) 搜 集 了 1955 年 
145 家 美国 电力 企业 的 总 成 本 (TC) 、 产 量 (Q) ,工资 率 (PL) ,燃料 价格 (PF) 及 资本 租赁 价格 
(PK) 的 数据 ,如 表 10-3 所 示 。 试 以 总 成 本 为 因 变量 ,以 产量 、 工 资 率 、 燃 料 价格 和 资本 租赁 
价格 为 自 变量 ,利用 多 元 线性 回归 分 析 方 法 研究 它们 之 间 的 关系 。 

表 10-3 美国 电力 行业 数据 
编号 ”TC( 百 万 美元 ) ”Q( 千 瓦 时 ) PL( 美 元 /千瓦 时 ) ”PF( 美 元 /千瓦 时 ) ”PK (美元 /千瓦 时 ) 


1 .082 2 2.09 37.9 183 
2 .661 3 2.05 35.1 174 
3 .99 4 2.05 35.1 4 | 
4 .315 4 1.83 32.2 166 
5 -197 5 2.12 28.6 233 
6 .098 9 2.12 28.6 195 
143 73.05 11796 2.12 28.6 148 
144 139. 422 14359 2.31 33.5 212 
145 119. 939 16719 2.3 23.6 162 


在 目录 G:\2glkx\data 下 建立 al10-1. xls 数据 文件 后 , 取 数 的 命令 如 下 : 


import pandas as pd 
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import numpy as np 


es@@ 


# 读 取 数据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame(pd. read_excel('G:\\2glkx\\data\\al10—1.xls ')) 
data. head( ) 
# 前 5 条 记录 数据 
TC 0 PL PF PK 
0 0.082 2 2.09 17.9 183 
1 0.661 3 2.05 35.1 174 
2 0.990 4 2.05 35.1 171 
3 0.315 4 1.83 32.2 166 
4 0.197 5 2.12 28.6 233 


1. 对 数据 进行 描述 性 分 析 
输入 如 下 命令 : 


data. describe( ) 
# 此 命令 的 含义 是 对 销售 额 xse、 人 数 rs 等 变量 进行 描述 性 统计 分 析 。 


输入 完 后 , 按 回 车 键 , 得 到 如 下 的 分 析 结果 : 


TC Q PL PF PK 
count 145.000000 145.000000 145.000000 145.000000 145.000000 


mean 12.976097 2133.082759 1.972069 26.176552 174.496552 
std 19.794577 2931.942131 0.236807 7.876071 18.209477 
min 0.082000 2.000000 1.450000 10.300000 138.000000 
25% 2.382000 279.000000 1.760000 21.300000 162.000000 
50% 6.754000 1109.000000 2.040000 26.900000 170.000000 
75$% 14.132000 2507.000000 2.190000 32.200000 183.000000 
max 139.422000 16719.000000 2.320000 42.800000 233.000000 


通过 观察 上 面 的 结果 ,可 以 得 到 很 多 信息 ,包括 5 个 计数 、5 个 平均 值 .5 个 标准 差 、5 个 
最 小 值 .5 个 第 一 百 分 位 数 、5 个 第 二 百 分 位 数 、5 个 第 三 百 分 位 数 、5 个 最 大 值 等 。 

通过 观察 上 面 的 结果 ,可 以 得 到 很 多 信息 ,如 5 个 最 小 值 .第 一 百 分 位 数 . 中 位 数 ,平均 
值 . 最 大 值 等 。 更 多 的 信息 描述 如 下 。 

(1) 5 个 最 小 值 (Smallest) 

变量 总 成 本 (TC) 最 小 值 是 0. 082。 

变量 产量 (Q) 最 小 值 是 2。 

变量 工资 率 (PL) 最 小 值 是 1. 450。 

燃料 价格 (PF) 最 小 值 是 10. 30。 

资本 租赁 价格 (PK) 最 小 值 是 138. 0。 

(2) 5 个 百 分 位 数 

五 个 变量 的 第 一 百 分 位 数 分 别 是 : 2. 382,279,1.760,21. 30 ,162.0。 

五 个 变量 的 第 三 百 分 位 数 分 别 是 14. 132,2507,2. 190,32. 20,233. 0。 
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(3) 5 个 平均 值 (Mean) 

五 个 变量 的 平均 值 分 别 是 : 12. 976,2133,1. 972,26. 18,174. 5。 
(4) 5 个 最 大 值 (Largest) 

5 个 变量 的 最 大 值 分 别 是 : 139. 422,16719 ,2. 320 ,42. 80,233. 0。 


2. 用 数组 对 数据 做 相关 分 析 


Y= np.array(data[['"TC']]) 

xl = np.array(data[['0']]) 

x2 = np.array(data[['PL']]) 

x3 = np.array(data[['PF']]) 

x4 = np.array(data[['PK']]) 
import scipy. stats. stats as stats 
Fl = stats. pearsonr(x1,y)[0] 

r2 = stats. pearsonr(x2,y)[0] 

r3= stats. pearsonr(x3,y)[0] 

r4 = stats. pearsonr(x4,y)[0] 
Print rl;print r2;print r3;print r4 


输入 完 后 , 按 回 车 键 ,得 到 如 下 的 分 析 结 果 : 


[ 0.9525037] 
[ 0.25133754] 
[ 0.03393519] 
[ 0.027202] 


通过 观察 上 面 的 结果 ,可 以 看 出 总 成 本 (TC) 和 产量 (Q) .工资 率 (PL) .燃料 价格 (PF)、 


资本 租赁 价格 (PK) 之 间 的 相关 系数 分 别 为 0. 9525037、0. 25133754、0. 03393519、0. 027202， 
这 说 明 总 成 本 TC 变量 与 其 他 变量 之 间 存 在 相关 关系 ,所 以 我 们 可 以 回归 分 析 。 


3. 用 数据 框 对 数据 做 相关 分 析 


用 数组 对 数据 做 相关 分 析 显 得 不 太 方便 ,下 面 用 数据 框 做 相关 分 析 , 就 方便 多 了 。 代 码 
如 下 : 


data. corr() 
得 到 如 下 结果 : 


TC Q PL PF PK 
TC 1.000000 0.952504 0.251338 0.033935 0.027202 
Q 0.952504 1.000000 0.171450 -0.077349 0.002869 
PL 0.251338 0.171450 1.000000 0.313703 -0.178145 
PF 0.033935 一 0.077349 0.313703 1.000000 0.125428 
PK 0.027202 0.002869 一 0.178145 0.125428 1.000000 


从 上 可 见 ,TC 与 Q 高 度 相关 ,而 与 其 他 的 变量 PL,PF,PK 相关 性 要 弱 一 些 , 尤 其 是 与 
PF 的 相关 性 更 弱 。 
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二 3. 多 元 回归 分 析 的 Python 的 statsmodels 工具 应 用 
多 元 回归 分 析 的 Python 的 statsmodels 工具 应 用 程序 代码 如 下 : 


import statsmodels.api as sm 
import pandas as pd 
import numpy as np 
# 读 取 数 据 并 创建 数据 表 , 名 称 为 data。 
data = pd. DataFrame(pd. read_excel('G:\\2glkx\\data\\al10—1.xls ')) 
data. head( ) 
TC 0 PL PFE PK 


0 0.082 2 2.09 17.9 183 
1 0.661 3 2.05 35,1 174 
2 0.990 4 2.05 35.1 171 
3 0.315 4 1.83 32.2 166 
4 0.197 5 2.12 28.6 233 


vars = ["TC','Q', 'PDb', PE', 'PK'] 
df = data[vars] 
# 显 示 最 后 5 条 记录 数据 
print df. tail() 

TC Q PL PF PK 
140 44.894 9956 .68 28.8 203 
141 67.120 11477 .24 26.5 151 
142 73.050 11796 .12 28.6 148 
143 139.422 14359 3 3 12 
144 119.939 16719 .30 23.6 162 


下 面 生成 设计 和 矩阵。 由 于 要 建立 的 模型 是 ?= 一 BX, 因 此 需要 分 别 求 得 ”和 X 矩阵 ,而 
dmatrices 就 是 做 这 个 的 ,命令 如 下 : 


Nb RN RD PP 


from patsy import dmatrices 

YX= dmatrices('TC~Q+PL+PF+PK',data= df, return type = 'dataframe') 
print y. head( ) 

print X. head( ) 


得 到 如 下 数据 : 


TC 

0.082 

0.661 

0.990 

0.315 

0.197 

Intercept Q PL PE PK 
1.0 2.0 2.09 17.9 183.0 
1.0 3.0 2.05. 35-1 174.0 
1.0 4.0 2.05 35.1 171.0 
1.0 4.0 1.83 32.2 166.0 
1.0 5.0 2.12 28.6 233.0 


下 面 用 OLS 作 普 通 最 小 二 乘 ,fit 方法 对 回归 方程 进行 估计 ,summary 保存 计算 的 
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CE 


第 10 章 多 元 回归 数据 分 析 的 Python 应 用 (129) 
结果 。 @ 
® 


import statsmodels.api as sm 
model = sm.OLS(y, X) 

fit = model.fit() 

print fit. summary() 


得 到 如 下 结果 : 


OLS Regression Results 


Dep. Variable: TC R- squared: 0.923 
Model: OLS Adj. R- squared: 0.921 
Method: Least Squares F- statistic: 418.1 
Date: Sat, 24 Sep 2016 Prob (F- statistic): 9.26e-77 
Time: 16:28:28 Log- Likelihood: 一 452.47 
No. Observations : 145 AIC: 914.9 
Df Residuals: 140 BIC: 929.8 
Df Model: 4 

Covariance Type: nonrobust 

coef std err 2 P>|tl| [95.0% Conf. Int. ] 

Intercept -22.2210 6.587 = 0.001 = 35.245 EC 

Q 0.0064 0.000 39.258 0.000 0.006 0.007 

PL 5.6552 2.176 2.598 0.010 1.352 9.958 

PF 0.2078 0.064 3.242 0.001 0.081 0.335 

PK 0.0284 0.027 1.073 0.285 一 0.024 0.081 
Omnibus: 135.057 Durbin — Watson: 1.560 
Prob( Omnibus): 0.000 Jarque - Bera (JB): 4737.912 
Skew: 2.907 Prob(JB) : 0.00 
Kurtosis: 30.394 Cond. No. 5.29e+ 04 


通过 观察 上 面 的 分 析 结 果 , 可 以 看 出 : 模型 的 下 值 ==418. 11,p 值 ==0.0000, 说 明 模 型 
整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 R-squared 一 0. 923 ,修正 的 可 决 系数 Adj Rsquared 一 
0. 921 ,说 明 模 型 的 解释 能 力 是 可 以 的 。 

模型 的 回归 方程 为 

TC = 0.0064Q 十 5.6552PL 十 0.2078PF 十 0.0284PK 一 22.2210 

变量 Q 的 系数 标准 误 是 0.000,t 值 为 39. 258,p 值 为 0. 000, 系 数 是 非常 显著 的 。 变 量 
PL 的 系数 标准 误 是 2. 176,z 值 为 2.598,p 值 为 0. 010, 系 数 是 非常 显著 的 。 变 量 PF 的 系 
数 标准 误 是 0.064,t 值 为 3.242,p 值 为 0. 001 ,系数 是 非常 显著 的 。 变 量 PK 的 系数 标准 误 
是 0.027,t 值 为 1.073,p 值 为 0. 285 ,系数 是 非常 不 显著 的 。 常 数 项 的 系数 标准 误 是 6. 587， 
t 值 为 一 3. 373,p 值 为 0.001, 系 数 是 非常 显著 的 。 

综合 上 面 的 分 析 , 可 以 看 出 : 美国 电力 企业 的 总 成 本 (TC) 受 到 产量 (Q) .工资 率 (PL)、 
燃料 价格 (PF) ,资本 租赁 价格 (PK) 的 影响 .美国 电力 行业 存在 规模 经 济 。 

读者 应 注意 上 面 的 模型 中 ,PK 的 系数 是 不 显著 的 。 从 前 面 的 相关 分 析 也 可 以 看 到 ,TC 
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国 。 与 PK 的 相关 系数 很 双 , 只 有 0.027202。 下 面 把 议 变 量 别 除 后 重新 进行 回归 分 析 命 令 


© 如 下 。 


from patsy import dmatrices 


YX= dmatrices('TC~Q+PL+PF',data= df,return type= 'dataframe') 


import statsmodels.api as sm 


model = sm.OLS(y, X) 
fit = model.fit() 
print fit. summary() 


输入 完 上 述 命 令 后 , 按 回 车 键 , 则 得 到 如 下 的 分 析 结 果 : 


OLS Regression Results 


Dep. Variable: TC R- squared: 0.922 
Model: OLS Adj. R- squared 0.920 
Method: Least Squares F- statistic: 556.5 
Date: Sat, 24 Sep 2016 Prob (F- statistic): 6.39e-78 
Time: 16:39:22 Log- Likelihood: 一 453.06 
No. Observations : 145 AIC: 914.1 
Df Residuals: 141 BIC: 926.0 
Df Model: 3 

Covariance Type: nonrobust 

coef std err t P>|t| [95.0% Conf. Int.] 

Intercept 一 16.5443 3.928 一 4.212 0.000 一 24.309 -8.780 

Q 0.0064 0.000 39.384 0.000 0.006 0.007 

PL 5.0978 2.115 2.411 0.017 0.917 9.278 

PE 0.2217 0.063 3.528 0.001 0.097 0.346 
Omnibus: 142.387 Durbin — Watson: 1.590 
Prob(Omnibus) : 0.000 Jarque - Bera (JB) : 5466.347 
Skew: 3.134 Prob(JB) : 0.00 
Kurtosis: 32.419 Cond. No. 3.42e+ 04 


从 上 面 分 析 结 果 可 见 ,模型 整体 依旧 是 非常 显著 的 。 模 型 的 可 决 系数 以 及 修正 的 可 决 
系数 变化 不 大 ,说 明 模型 的 解释 能 力 几乎 没有 变化 。 其 他 变量 ( 含 常数 项 的 系数 ) 都 非常 显 
著 ,模型 接近 完美 。 可 以 把 回归 结果 作为 最 终 的 回归 模型 方程 , 即 

TC = 0. 0064Q 十 5.0978PL 十 0.2217PF 一 16. 5443 

从 上 面 的 分 析 可 以 看 出 ,美国 电力 企业 的 总 成 本 受到 产量 、 工 资 率 、 燃 料 价格 的 影响 。 
总 成 本 随 着 这 些 变 量 的 升 高 而 升 高 .降低 而 降低 。 

值得 注意 的 是 : 产量 的 增加 引起 总 成 本 的 相对 变化 是 很 小 的 。 所 以 ,从 经 济 意义 上 说 ， 


美国 电力 行业 存在 规模 经 济 。 
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10.3 ”多 元 回归 分 析 的 Scikit-learn 工具 应 用 . 


1. 使 用 Pandas 来 读 取 数据 
Pandas 是 一 个 用 于 数据 探索 .数据 处 理 、 数 据 分 析 的 Python 库 。 


import pandas as pd 

# read csv file directly from a URL and save the results 

data = pd. read_csv( 'http://www - bcf. usc. edu/~gareth/ISL/Advertising. csv', index col = 0) 
# display the first 5 rows 


data. head( ) 
Out[35]: 

TV Radio Newspaper Sales 
1 230.1 37.8 69.2 22.1 
2 44.5 39.3 45.1 10.4 
Ei 17.2 45.9 69,3 9:3 
4 151.5 41.3 58.5 18.5 
5 180.8 10.8 58.4 12.9 


上 面 显 示 的 结果 类 似 一 个 电子 表格 ,这 个 结构 称 为 Pandas 的 数据 帧 (data frame)。 

Pandas 的 两 个 主要 数据 结构 : Series 和 DataFrame。 

(1) Series 类 似 于 一 维 数组 , 它 由 一 组 数据 以 及 一 组 与 之 相关 的 数据 标签 ( 即 索 引 ) 组 成 。 

(2) DataFrame 是 一 个 表格 型 的 数据 结构 , 它 含 有 一 组 有 序 的 列 ,每 列 可 以 是 不 同 的 值 
类 型 。DataFrame 既 有 行 索 引 也 有 列 索引 , 它 可 被 看 作 由 Series 组 成 的 字典 。 


# display the last 5 rows 


data.tail() 
Out[36] : 

TV Radio Newspaper Sales 
196 38.2 3.7 13.8 7.6 
197 94.2 4.9 8.1 9:7 
198 177.0 9.3 6.4 12.8 
199 283.6 42.0 66.2 25.5 
200 232.1 8.6 8.7 13.4 
# check the shape of the DataFrame(rows, colums) 
data. shape 
Out[37]: (200, 4) 
特征 : 


TV 一 一 对 于 一 个 给 定 市 场 中 的 单一 产品 ,用 于 电视 上 的 广告 费用 (以 千 为 单位 ); 

Radio 一 一 在 广播 媒体 上 投资 的 广告 费用 ; 

Newspaper 一 一 用 于 报纸 媒体 的 广告 费用 ; 

响应 变量 : Sales 一 一 对 应 产品 的 销量 。 

在 这 个 实例 中 ,我 们 通过 不 同 的 广告 投入 ,预测 产品 销量 。 因 为 响应 变量 是 一 个 连续 的 
值 ,所 以 这 个 问题 是 一 个 回归 问题 。 数 据 集 一 共有 200 个 观测 值 ,每 一 组 观测 对 应 一 个 市 场 
的 情况 。 
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import seaborn as sns # seaborn 程序 包 需 要 先 安 装 
# 安装 命令 : pip install seaborn 
sns. pairplot(data, x_vars = [TV' 'Radiov 'Newspaper'], y vars = 'Sales', size= 7，aspect= 0.8) 


得 到 如 图 10-1 所 示 的 图 形 。 
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TV Radio Newspaper 
图 10-1 散 点 图 


seaborn 的 pairplot 函数 绘制 X 的 每 一 维度 和 对 应 Y 的 散 点 图 。 通 过 设置 size 和 
aspect 参数 来 调节 显示 的 大 小 和 比例 。 可 以 从 图 中 看 出 ,TV 特征 和 销量 是 有 比较 强 的 线 
性 关系 的 ,而 Radio 和 Sales 线性 关系 弱 一 些 , Newspaper 和 Sales 线性 关系 更 弱 。 通 过 加 
人 一 个 参数 kind= 'reg',seaborn 可 以 添加 一 条 最 佳 拟 合 直线 和 95% 的 置信 区 间 。 


sns. pairplot(data，x_vars = ['TV', 'Radio', 'Newspaper'], y_vars = 'Sales', size=7, aspect =0.8, 
kind = 'reg') 


可 以 得 到 如 图 10-2 所 示 的 图 形 。 
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图 10-2 带 有 回归 线 的 散 点 图 
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import seaborn as sns # seaborn 程序 包 需 要 先 安 装 
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得 到 如 图 10-1 所 示 的 图 形 。 
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2. 线性 回归 模型 


优点 : 快速 ,没有 调节 参数 、 易 解释 、 可 理解 。 

缺点 : 相 比 其 他 复杂 一 些 的 模型 ,其 预测 准确 率 不 是 太 高 ,因为 它 假设 特征 和 响应 之 间 
存在 确定 的 线性 关系 ,这 种 假设 对 于 非 线性 的 关系 ,线性 回归 模型 显然 不 能 很 好 地 对 这 种 数 
据 建 模 。 

线性 模型 表达 式 : y 二 BB 十 Bz 十 Ps 十 … 十 Bz 。 

其 中 :y 是 响应 ; 多 是 截 距 ; Bl 是 zi 的 系数 ; 依次 类 推 。 

在 这 个 实例 中 : y=B 十 B1 TV 十 Be Radio 十 … 十 B, Newspaper。 

(1) 使 用 Pandas 来 构建 X 和 y 

scikit-learn 要 求 X 是 一 个 特征 矩阵 ,y 是 一 个 NumPy 向 量 。 

Pandas 构建 在 NumPy 之 上 ,因此 ,X 可 以 是 Pandas 的 DataFrame,y 可 以 是 Pandas 的 
Series ,scikit-learn 可 以 理解 这 种 结构 。 


# create a Python list of feature names 

feature cols = ['TV', 'Radio', 'Newspaper'] 

# use the list to select a subset of the original DataFrame 
X = data[ feature_cols] 

# equivalent command to do this in one line 

X = data[['TV', 'Radio', 'Newspaper']] 


# print the first 5 rows 


xX. head() 
Out[41]: 
TV Radio Newspaper 
1 230.1 37.8 69.2 
2 44.5 39.3 45.1 
3 17.2 45.9 69.3 
4 151.5 41.3 58.5 
5 180.8 10.8 58.4 
# check the type and shape of X 
print type(X) 
print X. shape 
<class 'pandas. core. frame. DataFrame'> 
(200, 3) 


# select a Series from the DataFrame 
Y = data[ 'Sales'] 
# equivalent command that works if there are no spaces in the column name 
Y = data. Sales 
# print the first 5 values 
Y.head() 
Out[45]: 
22.1 
10.4 
Ee ] 
18.5 
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Name: Sales, dtype: float64 

print type(Y) 

print Y. shape 

<class 'pandas. core. series. Series'> 
(200,) 


(2) 构造 训练 集 和 测试 集 


from sklearn. cross_validation import train test split 

XxX train, X test, y train, y test = train test split(X, y, random state=1) 
# default split is 75% for training and 25% for testing 
print Xx train. shape 

print y_train. shape 

print X_test. shape 

print y_test. shape 

(150, 3) 

(150,) 

(50, 3) 

(50,) 


(3) 线性 回归 分 析 的 Scikit-learn 工具 应 用 


from sklearn. linear model import LinearRegression 
linreg = LinearRegression() 
linreg. fit(X train, y train) 
LinearRegression(copy X= True, fit intercept = True, n_jobs=1, normalize = False) 
print linreg. intercept_ 
print linreg. coef_ 
2.87696662232 
[ 0.04656457 0.17915812 0.00345046] 
# pair the feature names with the coefficients 
zip(feature_cols, linreg.coef ) 
Out[49]: 
[('TV', 0.046564567874150288)，, 

('Radio', 0.17915812245088841), 

('Newspaper', 0.0034504647111803788)] 


因此 回归 直线 方程 为 : 
y 三 2.88 十 0.0466TV 十 0.179Radio 十 0.00345Newspaper 
如 何 解 释 各 个 特征 对 应 的 系数 的 意义 ? 
对 于 给 定 了 Radio 和 Newspaper 的 广告 投入 ,如 果 在 TV 广告 上 每 多 投入 1 个 单位 ,对 


应 销量 将 增加 0. 0466 个 单位 。 更 明确 一 点 说 ,假如 其 他 两 个 媒体 投入 固定 ,在 TV 广告 上 每 
增加 1000 美元 (因为 单位 是 1000 美元 ) ,公司 的 销售 量 将 增加 46. 6 美元 (因为 单位 是 1000) 。 


(4) 预测 


Y_pred = linreg.predict(X test) 

print y_pred 

[ 21.70910292 16.41055243 7.60955058 17.80769552 18.6146359 
23.83573998 16.32488681 13.43225536 9.17173403 17.333853 
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14.44479482 9.83511973 17.18797614 16.73086831 
15.61434433 12.42541574 17.17716376 11.08827566 
9.28438889 12.98458458 8.79950614 10.42382499 
14.98082512 9.78853268 19.39643187 18.18099936 
21.54670213 14.69809481 16.24641438 12.32114579 
15.32498602 13.88726522 10.03162255 20.93105915 
3.64695761 7.22020178 5.9962782 18.43381853 
14.08371047 15.02195699 20.35836418 20.57036347 


3. 回归 问题 的 评价 测度 
下 面 介绍 三 种 常用 的 针对 回归 问题 的 评价 测度 。 


# define true and predicted response values 
[100, 50, 30, 20] 
pred = [90, 50, 50, 30] 


true 


(1) 平均 绝对 误差 (mean absolute error, MAE) 


MAE = 1 | 


n 
(2) 均 方 误差 (mean squared error, MSE) 
了 ~ 
(yi 一 区 7) 
MSE — 和 7 ee 


(3) 均 方 根 误 差 (root mean squared error, RMSE) 


from sklearn import metrics 

import numpy as np 

# calculate MAE by hand 

print"MAE by hand:", (10 + 0 + 20 + 10)/4. 

# calculate MAE using scikit - learn 

print "MAE:", metrics. mean_absolute error(true, pred) 
# calculate MSE by hand 


5 
18. 
.3846456 
.12807566 
.92422501 
.44936831 
.39408045 
.60636679] 


05529391 
00537501 


print "MSE by hand:", (10#* x*2 + 0x x*2 + 20* x*2 + 10# x*2)/4. 


# calculate MSE using scikit — learn 
print "MSE:", metrics. mean squared error(true, pred) 
# calculate RMSE by hand 


print "RMSE by hand:",np. sqrt((10* *2 + Ox x*2 + 20* x2 + 10x* *2)/4.) 


# calculate RMSE using scikit ~ learn 


print "RMSE:",np. sqrt(metrics. mean_squared_error(true, pred)) 


得 到 如 下 结果 : 


MAE by hand: 10.0 
MAE: 10.0 

MSE by hand: 150.0 

MSE: 150.0 

RMSE by hand: 12.2474487139 
RMSE: 12.2474487139 
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计算 sales 预测 的 RMSE 
print np. sqrt(metrics. mean_ squared error(y test, y_pred)) 


1.40465142303 


4. 特征 选择 


在 前 面 图 10-1 所 示 的 图 形 展示 中 ,我 们 看 到 Newspaper 和 销量 之 间 的 线性 关系 比较 
现在 我 们 移 除 这 个 特征 ,看 看 线性 回归 预测 的 结果 的 RMSE 如 何 ? 


feature cols = ['"TV', 'Radio'] 

X = data[feature cols] 

Y = data.Sales 

XxX train, X test, y train, y test = train test split(X, y, random state=1) 
linreg. fit(X train, y train) 

Y_pred = linreg.predict(X test) 

print np. sqrt(metrics. mean_squared error(y_test, y_pred)) 

1.38790346994 


将 Newspaper 这 个 特征 移 除 之 后 ,得 到 RMSE 变 小 了 ,说 明 Newspaper 特征 不 适合 作 


为 预测 销量 的 特征 ,这 样 可 以 得 到 新 的 模型 。 还 可 以 通过 不 同 的 特征 组 合 得 到 新 的 模型 ,看 
看 最 终 的 误差 如 何 。 


10.4 稳健 线性 回归 分 析 Python 应 用 


以 职业 声望 数据 集 为 例 ,其 中 包括 income( 收 入 ) ,education( 教 育 ) ,prestige( 声 望 ) 。 
准备 工作 如 下 : 


from _future_ import print_function 
from statsmodels. compat import lmap 
import numpy as np 
from scipy import stats 
import matplotlib. pyplot as plt 
import statsmodels.api as sm 
from statsmodels. graphics. api import abline plot 
from statsmodels. formula. api import ols, rlm 
# # 取 数据 集 
prestige = sm.datasets.get_rdataset("Duncan", "car", cache = True). data 
## # 显示 前 5 条 
print(prestige. head( 5)) 
type income education prestige 


accountant prof 62 86 82 
pilot prof 72 76 83 
architect prof 75 92 90 
author prof SS 90 76 
chemist prof 64 86 90 


# # 稳 健 线性 回归 分 析 
rlm model = rlm('prestige ~ income + education', prestige).fit() 
print(rlm model. summary()) 
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得 到 结果 如 下 时 


Robust Linear Model Regression Results 


Dep. Variable: Prestige NO. Observations : 45 
Model: RIM Df Residuals: 42 
Method: IRLS Df Model: 2 
Norm: HuberT 
Scale Est: mad 
Cov Type: Hl 
Date: Fri, 28 Oct 2016 
Time: 16:24:51 
No. Iterations: 18 
coef std err z P>|t| [95.0% Conf. Int.] 
Intercept = .1107 3.879 = 和 .3 0.067 = 713 一 0.492 
income 0.7015 0.109 6.456 0.000 0.489 0.914 
education 0.4854 0.089 5.441 0.000 0.311 0.660 
Omnibus: 142.387 Durbin - Watson: 1.590 
Prob( Omnibus): 0.000 Jarque - Bera (JB): 5466.347 
Skew: 3.134 Prob(JB): 0.00 
Kurtosis: 32.419 Cond. No. 3.42e+ 04 
10.5 逻辑 Logistic 回归 分 析 Python 应 用 
10.5.1 相关 理论 


线性 回归 模型 是 定量 分 析 中 最 常用 的 统计 分 析 方 法 ,但 线性 回归 分 析 要 求 响应 变量 是 
连续 型 变量 。 在 实际 研究 中 ,尤其 适合 在 社会 .经 济 数据 的 统计 分 析 中 ,研究 非 连 续 型 的 响 
应 变量 , 即 分 类 响应 变量 。 

在 研究 两 元 分 类 响应 变量 与 诸多 自 变量 间 的 相互 关系 时 , 常 选用 Logistic 回归 模型 。 

将 两 元 分 类 响应 变量 Y 的 一 个 结果 记 为 “成 功 ”, 另 一 个 结果 记 为 失败”, 分别 用 0 或 1 
表示 。 对 响应 变量 Y 有 影响 的 p 个 自 变量 (解释 变量 ) 记 为 X，,…,X,。 在 m 个 自 变 量 的 作 
用 下 出 现 “ 成 功 ” 的 条 件 概率 记 为 p(Y 二 1|Xi,…,X,) 那 么 Logistic 回归 模型 表示 为 


p exp(pBo + Bz tt hry) 
1 二 exp(Bo 十 Bizi 十 … 十 Bpxs) 


BB 称 为 常数 项 ,B,,… ,Bs 称 为 Logistic 回归 模型 的 回归 系数 。 

从 上 式 (1) 可 以 看 出 ,Logistic 回归 模型 是 一 个 非 线 性 的 回归 模型 , 自 变量 zx ,j 二 1,…， 
p 可 以 是 连续 变量 ,也 可 以 是 分 类 变量 或 哑 变 量 。 对 自 变 量 xz; 任意 取 值 B 十 Br 十 … 十 
Boxs 总 落 在 (一 cc,cc) 中 ,上 式 (1) 的 比值 即 户 值 , 总 在 0 到 1 之 间 变 化 ,这 就 是 Logistic 回 
归 模 型 的 合理 性 所 在 。 


hy 
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对 公式 (1) 做 logit 变换 ,Logistic 回归 模型 可 以 写成 下 列 线 性 形式 : 
。 p | ee 
logit(p) m(12;) Bo 十 Bxi 二 HBr 
这 样 就 可 以 使 用 线性 回归 模型 对 参数 B,j 二 1,…,p 进行 估计 。 
10.5.2 ”Python 应 用 


程序 包 的 准备 : 


import numpy as np 
import statsmodels.api as sm 


程序 包 内 含 数 据 导入 : 


spector data = sm. datasets. spector. load() 
spector_data. exog = sm.add_ constant(spector data. exog, prepend = False) 


数据 展示 : 


print(spector_data. exog[ :5, : ]) 
[[ 2.66 20. 
[ 2.89 22. 
[ 3.28 24. 
[292 12 
[ 4. 21. -0 
print(spector_data. endog[ :5]) 
[0.0.0.0.1.] 


逻辑 回归 分 析 代 码 如 下 : 


oooopo 


1 
bh 
二 
1 
1 


logit mod = sm.Logit(spector_data.endog, spector_data. exog) 
logit res = logit mod.fit(disp=0) 
print( 'Parameters: ', logit res.params) 


得 到 结果 如 下 : 


('Parameters: ', array([ 2.82611259, 0.09515766, 2.37868766, -13.02134686])) 


10.6 广义 线性 回归 分 析 Python 应 用 


10.6.1 相关 理论 


Logistic 回归 模型 属于 广义 线性 模型 的 一 种 , 它 是 通常 的 正 态 线性 回归 模型 的 推广 , 它 
要 求 响应 变量 只 能 通过 线性 形式 依赖 于 解释 变量 。 上 述 推广 体现 在 两 个 方面 : 

(1) 通过 一 个 连续 函数 PC(E(CY)) 王 记 十 Br 十 … 十 Bozrps 

(2) 通过 一 个 误差 函数 ,说 明 广义 线性 模型 的 最 后 一 部 分 随机 项 。 

表 10-4 给 出 了 广义 线性 模型 中 常见 的 连续 函数 和 误差 函数 。 可 见 , 若 连接 函数 为 恒 等 
变换 ,误差 函数 为 正 态 分 布 , 则 得 到 通常 的 正 态 线性 模型 。 


第 10 章 多 元 回归 数据 分 析 的 Python 应 用 @ 


表 10-4 常见 的 连接 函数 和 误差 函数 


10. 


变换 连接 函数 回归 模型 典型 误差 函数 
恒 等 9P(Z) 一 工 E(y)=XB 正 态 分 布 
logit g(x)=logit(z) ln git(E(y))=X'B 二 项 分 布 
对 数 9g(z)=In(z) In(E(y))=X'p 泊 松 分 布 
道 (倒数 ) g(rz)=1/zr 1/E(y)=X'B 件 马 分 布 


Python 的 statsmodels 程序 包 提供 了 各 种 拟 合 和 计算 广义 线性 模型 的 函数 。 
正 态 分 布 拟 合 和 计算 调用 格式 为 : 


import statsmodels. api as sm 

gauss_log = sm.GLM(lny,X,family= sm. families.Gaussian()) 
res = gauss log .fit() 

print(res. summary( ) ) 


二 项 分 布 拟 合 和 计算 调用 格式 为 : 


import statsmodels.api as sm 

glm binom = sm.GLM(data.endog, data. exog, family= sm. families.Binomial()) 
res = glm binom.fit() 

print(res. summary( ) ) 


泊 淞 分 布 拟 合 和 计算 调用 格式 为 : 


import statsmodels. api as sm 

glm poisson = sm.GLM(data. endog, data. exog, family= sm. families.Poisson()) 
res = glm poisson. fit() 

print(res. summary( ) ) 


伽 马 分 布 拟 合 和 计算 调用 格式 为 : 


import statsmodels.api as sm 

glm gamma = sm.GLM(data2.endog, data2.exog, family= sm. families. Gamma() ) 
res = glm gamma.fit() 

print(res. summary( ) ) 


下 面 以 二 项 分 布 函 数 为 例 , 来 说 明 Python 广义 回归 分 析 的 应 用 。 
6.2 Python 应 用 
程序 包 的 准备 : 


import numpy as np 

import statsmodels.api as sm 

from scipy import stats 

from matplotlib import pyplot as plt 


程序 包 内 含 数据 导入 : 


data = sm. datasets. star98. load() 
data. exog = sm.add constant(data. exog, prepend = False) 
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数据 展示 : 


print(spector_data.exog[ :5,:]) 


[[ 2.66 20. 0. 3 
[ 2.89 22. 0. bs ] 
[ 3.28 24. 0. bx ] 
[ 292 12. 0. 1 
上 0. i | 

print(data. exog[ :2, : ]) 


[[ 3.43973000e+01 2.32993000e+01 1.42352800e+01 1.14111200e+01 
1.59183700e+01 1.47064600e+01 5.91573200e+01 4.44520700e+00 
.17102500e+01 5.70327600e+01 0.00000000e+00 2.22222200e+01 
.34102872e+02 9.41688110e+02 8.69994800e+02 9.65065600e+01 
.53522420e+02 1.23819550e+03 1.38488985e+04 5.50403520e+03 
.00000000e+ 00] 
.73650700e+ 01 
.36363600e+ 01 
.04427800e+ 01 
.19316851e + 02 
.40406090e + 02 
.00000000e+ 00]] 


二 项 分 布 函 数 的 广义 回归 分 析 代 码 如 下 : 


PU 
PP oo 口 wm 


.93283800e+ 01 
.60832400e+ 01 
.46226400e+ 01 
.11417560e + 02 
.32106640e + 03 


.23489700e + 00 
.95039700e+ 01 
.00000000e+ 00 
.57016600e + 02 
.30502233e + 04 


.31488400e+ 00 
.26759800e+ 00 
.00000000e+ 00 
.07684350e + 02 
.95884680e + 03 


Ph mo oa Ph 
Ph ou o 


PWODDPPPDODD 
oO Ph 口 mo 


import statsmodel s.api as sm 

glm binom = sm.GLM(data.endog, data. exog, family= sm. families.Binomial()) 
res = glm binom. fit() 

print(res. summary( ) ) 


结果 如 下 : 


Generalized Linear Model Regression Results 


Dep. Variable: ['yl', 'y2'] No. Observations: 303 
Model: GLM Df Residuals: 282 
Model Family: Binomial Df Model: 20 
Link Function: logit Scale: 1.0 
Method: IRLS Log - Likelihood: 一 2998.6 
Date: Tue，21 Jun 2016 Deviance: 4078.8 
Time: 13:14:17 Pearson chi2: 9.60 


No. Iterations: 5 


第 10 章 多 元 回归 数据 分 析 的 Python 应 用 @ 


x8 -1.9522 0.317 一 6.162 0.000 一 2.573 = 
x9 一 0.3341 0.061 =5.453 0.000 一 0.454 一 0.214 
x10 一 0.1690 0.033 一 5.169 0.000 =0:233 一 0.105 
X11 0.0049 0.001 3.921 0.000 0.002 0.007 
X12 一 0.0036 0.000 一 15.878 0.000 一 0.004 一 0.003 
X13 一 0.0141 0.002 一 7.391 0.000 一 0.018 一 0.010 
X14 一 0.0040 0.000 一 8.450 0.000 一 0.005 一 0.003 
到 5 一 0.0039 0.001 一 4.059 0.000 一 0.006 一 0.002 
X16 0.0917 0.015 6.321 0.000 0.063 0.120 
x17 0.0490 0.007 6.574 0.000 0.034 0.064 
x18 0.0080 0.001 5.362 0.000 0.005 0.011 
x19 0.0002 2.99e-05 7.428 0.000 0.000 0.000 
x20 一 0.0022 0.000 一 6.445 0.000 一 0.003 一 0.002 
const 2.9589 1.547 1.913 0.056 一 0.073 5.990 


练 习 题 


对 例题 中 的 数据 文件 ,使 用 Python 的 OLS 工具 和 scikit-learn 工具 重新 操作 一 遍 。 


机 器 学 习 数 据 分 析 的 Python 应 用 


11.1 机 器 学 习 算 法 分 类 


一 般 来 说 ,机 器 学 习 算 法 有 以 下 三 类 。 
1. 监督 式 学 习 算 法 


这 类 算法 由 一 个 目标 变量 或 结果 变量 (或 因 变 量 ) 组 成 。 这 些 变 量 由 已 知 的 一 系列 预示 
变量 ( 自 变 量 ) 预 测 而 来 。 利 用 这 一 系列 变量 ,可 以 生成 一 个 将 输入 值 映 射 到 期 望 输出 值 的 
函数 。 这 个 训练 过 程 会 一 直 持 续 , 直 到 模型 在 训练 数据 上 获得 期 望 的 精确 度 。 监 督 式 学 习 
的 例子 有 : 线性 回归 ,决策 树 、 随 机 森林 算法 、K 最 近邻 算法 、 人 逻辑 回归 等 。 


2. 非 监督 式 学 习 算法 


这 类 算法 没有 任何 目标 变量 或 结果 变量 要 预测 或 估计 。 它 用 在 不 同 的 组 内 聚 类 分 析 。 
这 种 分 析 方 式 被 广泛 地 用 来 细 分 客户 ,根据 干预 的 方式 分 为 不 同 的 用 户 组 。 非 监督 式 学 习 
的 例子 有 : 关联 算法 、K 均值 算法 等 。 

3. 强化 学 习 算 法 


这 类 算法 训练 机 器 进行 决策 。 原 理 是 这 样 的 : 机 器 被 放 在 一 个 能 让 它 通过 反复 试 错 来 
训练 自己 的 环境 中 。 机 器 从 过 去 的 经 验 中 进行 学 习 , 并 且 尝试 利用 了 解 最 透彻 的 知识 作出 
精确 的 商业 判断 。 强 化 学 习 算法 的 例子 有 马尔 可 夫 决 策 过 程 。 


11.2 常见 的 机 器 学 习 算法 及 其 Python 代码 


常见 的 机 器 学 习 算法 有 : (1) 线 性 回归 ; (2) 逻 辑 回归 ; (3) 决 策 树 ; (4) 支 持 向 量 机 
(SVMD) 分 类 ; (5) 朴 素 贝 叶 斯 分 类 ; (6)K 最 近邻 算法 ; (7)K 均值 算法 ; (8) 随 机 森林 算法 ; 
(9) 降 维 算 法 ; (10)Gradient Boost 和 Adaboost 算法 。 

下 面 我 们 对 上 面 的 机 器 学 习 算 法 逐一 介绍 ,并 给 出 其 主要 的 Python 代码 。 


11.2.1 线性 回归 


线性 回归 通常 用 于 根据 连续 变量 估计 实际 数值 (如 房价 、 呼 叫 次 数 、 总 销售 额 等 )。 我 们 
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通过 拟 合 最 佳 直线 来 建立 自 变 量 和 因 变 量 的 关系 。 这 条 最 佳 直线 叫 作 回 归 线 ,并 且 用 y 一 
az 十 b 这 一 线性 等 式 来 表示 。 

假设 在 不 问 对 方 体重 的 情况 下 ,让 一 个 五 年 级 的 孩子 按 体重 从 轻 到 重 的 顺序 对 班 上 的 
同学 排序 ,你 觉得 这 个 孩子 会 怎么 做 ? 他 很 可 能 会 目测 人 们 的 身高 和 体形 ,综合 这 些 可 见 的 
参数 来 排列 他 们 。 这 是 现实 生活 中 使 用 线性 回归 的 例子 。 实 际 上 ,这 个 孩子 发 现 了 身高 和 
体形 、 体 重 有 一 定 的 关系 ,这 个 关系 看 起 来 很 像 上 面 的 等 式 。 在 这 个 等 式 中 : 

y: 因 变 量 ; 

Z: 自 变量 ; 

a: 斜率 ; 

0: 截 距 。 

系数 a 和 6 可 以 通过 最 小 二 乘法 获得 。 

如 图 11-1 所 示 。 


. =0.2811x+13.9 
R=0.4218 
100 120 140 160 180 200 
Height(cm) 


11-1 体重 与 身高 的 关系 


我 们 找 出 最 佳 拟 合 直线 y==0. 2811zx 十 13.9。 已 知人 的 身高 (height) ,我 们 可 以 通过 这 
条 等 式 求 出 体重 (weight) 。 

线性 回归 的 两 种 主要 类 型 是 一 元 线性 回归 和 多 元 线性 回归 。 一 元 线性 回归 的 特点 是 只 
有 一 个 自 变量 。 多 元 线性 回归 的 特点 正如 其 名 ,存在 多 个 自 变量 。 找 最 佳 拟 合 直线 的 时 候 ， 
你 可 以 拟 合 到 多 项 或 者 曲线 回归 。 这 些 就 被 叫 作 多 项 或 曲线 回归 。 

Python 代码 : 


# Import Library 

# Import other necessary libraries like Pandas, NumPy... 
from sklearn import linear model 

#Load Train and Test datasets 

# Identify feature and response variable(s) and values must be numeric and NumPy arrays 
x_train= input_variables_values training datasets 
Y_train = target_variables_values training datasets 
x_test = input_variables values test_ datasets 

# Create linear regression object 

linear = linear model.LinearRegression() 

# Train the model using the training sets and check score 
linear.fit(x train, y train) 

linear. score(x train, y train) 

# Equation coefficient and Intercept 
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print( 'Coefficient: n', linear.coef ) 
print('Intercept: n', linear. intercept ) 
#Predict Output 

Predicted = linear.predict(x test) 


11.2.2 逻辑 回归 


这 是 一 个 分 类 算法 ,而 不 是 一 个 回归 算法 。 该 算法 可 根据 已 知 的 一 系列 因 变 量 估 计 离 
散 数值 (如 二 进 制 数值 0 或 1 ,是 或 否 , 真 或 假 ) 。 简 单 来 说 , 它 通 过 将 数据 拟 合 进 一 个 多 辑 
函数 来 预 估 一 个 事件 出 现 的 概率 。 因 此 , 它 也 被 叫 作 逻辑 回归 。 因 为 它 预 估 的 是 概率 ,所 以 
它 的 输出 值 大 小 在 0 和 1 之 间 ( 正 如 所 预计 的 一 样 ) 。 如 图 11-2 所 示 。 


1.0 


=1) 


Prob(y 


图 11-2 逻辑 函数 图 


我 们 再 通过 一 个 简单 的 例子 来 理解 这 个 算法 。 

假设 你 朋友 让 你 解 开 一 个 这 题 。 只 会 有 两 个 结果 : 你 解 开 了 或 是 没有 解 开 。 想 象 你 要 
解答 很 多 道 题 来 找 出 你 所 擅长 的 主题 。 这 个 研究 的 结果 就 会 像 是 这 样 : 假设 题目 是 一 道 十 
年 级 的 三 角 函 数 题 ,你 有 70% 的 可 能 会 解 开 这 道 题 。 然 而 , 若 题 目 是 道 五 年 级 的 历史 题 , 你 
只 有 30% 的 可 能 性 回答 正确 。 这 就 是 逻辑 回归 能 提供 给 你 的 信息 。 

从 数学 上 看 ,在 结果 中 ,概率 的 对 数 使 用 的 是 预测 变量 的 线性 组 合 模型 。 

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence 

ln(odds) = ln(p/(1-p)) 

logit(p) = ln(p/(1-p)) = bO+blxX1+b2xX2+b3xX3....+bkxxX 

在 上 面 的 式 子 里 ,p 是 我 们 感 兴趣 的 特征 出 现 的 概率 。 它 选用 使 观察 样本 值 的 可 能 性 
最 大 化 的 值 作为 参数 ,而 不 是 通过 计算 误差 平方 和 的 最 小 值 (就 如 一 般 的 回归 分 析 用 到 的 
一 样 ) 。 

Python 代码 : 

# import Library 

from sklearn. linear model import LogisticRegression 


# Assumed you have, X (predictor) and Y (target) for training data set and x test(predictor) of 
test_dataset 


# Create logistic regression object 
model = LogisticRegression() 

# Train the model using the training sets and check score 
model. fit(X, y) 

model. score(X, y) 

# Equation coefficient and Intercept 

print( 'Coefficient: n', model.coef ) 

print('Intercept: n', model. intercept ) 

#Predict Output 

predicted= model.predict(x test) 


更 进一步 : 可 以 尝试 更 多 的 方法 来 改进 这 个 模型 : (1) 加 入 交互 项 ; (2) 精 简 模 型 特性 ; 
(3) 使 用 正则 化 方法 ; (4) 使 用 非 线性 模型 。 


11.2.3 决策 树 


决策 树 这 个 监督 式 学 习 算 法 通常 被 用 于 分 类 问题 。 令 人 惊奇 的 是 , 它 同 时 适用 于 分 类 
变量 和 连续 因 变 量 。 在 这 个 算法 中 ,我 们 将 总 体 分 成 两 个 或 更 多 的 同类 群 。 这 是 根据 最 重 
要 的 属性 或 者 自 变量 来 分 成 尽 可 能 不 同 的 组 别 。 如 图 11-3 所 示 。 

Dependent variable: PLAY 
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Play 13 
Don'tPlay 9 
OUTLOOK? 
sunny 有 Overcast rain 
Play 6 Play 4 Play 3 
Don'tPlay 6 Don'tPlay 1 DontPlay 2 
AS 415 
HUMIDITY? WINDY? 
<70 NN >70 TRUE ee 
Play 2 Play 1 Play 0 Play 3 
Don'tPlay 3 Don'tPlay 3 Dont Play 2 Don'tPlay 0 
5 3/4 score: 2/2 3/3 
图 11-3 决策 树 


在 图 11-3 中 可 以 看 到 ,根据 多 种 属性 ,人 群 被 分 成 了 不 同 的 四 个 小 组 ,来 判断 “他 们 会 
不 会 去 玩 ”。 为 了 把 总 体 分 成 不 同 组 别 , 需 要 用 到 许多 技术 ,比如 说 Gini、Information Gain、 
Chi-square ,entropy。 


Python 代码 : 


# import Library 
# import other necessary libraries like Pandas, NumPy... 
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下 


from sklearn import tree 

# Rssumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of 
test_dataset 

# Create tree object 

model = tree.DecisionTreeClassifier(criterion = 'gini') # for classification, here you can 
change the algorithm as gini or entropy (information gain) by default it is gini 

# model = tree.DecisionTreeRegressor() for regression 

# Train the model using the training sets and check score 

model. fit(X, y) 

model. score(X, y) 

#Predict Output 

predicted= model.predict(x test) 


.2.4 支持 向 量 机 (SVM) 分 类 


这 是 一 种 分 类 方法 。 在 这 个 算法 中 ,我 们 将 每 个 数据 在 N 维 空间 中 用 点 标 出 (N 是 所 


有 的 特征 总 数 ) ,每 个 特征 的 值 是 一 个 坐标 的 值 。 


例如 ,如 果 我 们 只 有 身高 和 头发 长 度 两 个 特征 ,我 们 会 在 二 维 空间 中 标 出 这 两 个 变量 ， 


每 个 点 有 两 个 坐标 (这 些 坐 标 叫 作 支持 向 量 ) ,如 图 11-4 所 示 。 
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图 11-4 支持 向 量 


现在 ,我 们 会 找到 将 两 组 不 同 数据 分 开 的 一 条 直线 。 两 个 分 组 中 距离 最 近 的 两 个 点 到 


这 条 线 的 距离 同时 最 优化 ,如 图 11-5 所 示 。 
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11-5 分开 线 
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图 11-5 中 的 黑 线 将 数据 分 类 优化 成 两 个 小 组 ,两 组 中 距离 最 近 的 点 (图 中 A 点 和 B © 
点 ) 到 达 黑 线 的 距离 满足 最 优 条 件 。 这 条 直线 就 是 我 们 的 分 割 线 。 接 下 来 ,测试 数据 落 到 直 
线 的 哪 一 边 ,我 们 就 将 它 分 到 哪 一 类 去 。 

Python 代码 : 


# Import Library 

from sklearn import svm 

#Assumed you have, X (predic 

tor) and Y (target) for training data set and x _ test(predictor) of test dataset 
# Create SVM classification object 

model = swm. svc ( ) # there is various option associated with it, this is simple for 
classification. You can refer link, for mo# re detail. 

# Train the model using the training sets and check score 

model. fit(X, y) 

model. score(X, y) 

#Predict Output 

predicted = model.predict(x_test) 


11.2.5 朴素 贝 叶 斯 分 类 


在 预示 变量 间 相 互 独立 的 前 提 下 ,根据 贝 叶 斯 定理 可 以 得 到 朴素 贝 叶 斯 这 个 分 类 方法 。 
用 更 简单 的 话 来 说 ,一 个 朴素 贝 叶 斯 分 类 器 假设 一 个 分 类 的 特性 与 该 分 类 的 其 他 特性 不 相 
关 。 举 例 来 说 ,如 果 一 个 水 果 又 圆 又 红 并 且 直 径 大 约 是 8cm, 那 么 这 个 水 果 可 能 会 是 苹果 。 
即便 这 些 特 性 互相 依赖 或 者 依赖 于 别 的 特性 存在 ,朴素 贝 叶 斯 分 类 器 还 是 会 假设 这 些 特性 
分 别 独 立地 暗示 这 个 水 果 是 个 苹果 。 

朴素 贝 叶 斯 模型 易于 建造 , 且 对 于 大 型 数据 集 非 常 有 用 。 虽 然 简单 ,但 是 朴素 贝 叶 斯 的 
表现 却 超越 了 非常 复杂 的 分 类 方法 。 

贝 叶 斯 定理 提供 了 一 种 从 P(c)、P(Cz) 和 PCzlc) 计 算 后 验 概率 P(c|z) 的 方法 。 请 看 以 


下 等 式 ， 
Likelihood ©& Class Prior Probability 


P(xloP(c) 
PY) 


Plclx)= 
1 


Posterior Probability ”Predictor Prior Probability 
plc | X) = P(xi | c) 。 P(xs | c)。…。PCz。 | c)。P(c) 
这 里 ,P(c|z) 是 已 知 预示 变量 (属性 ) 的 前 提 下 ,类 (目标 ) 的 后 验 概率 ,P(c) 是 类 的 先 验 概 
率 ,P(z|c) 是 可 能 性 , 即 已 知 类 的 前 提 下 ,预示 变量 的 概率 ,P(z) 是 预示 变量 的 先 验 概率 。 
例 11-1 设 有 一 个 天 气 的 训练 集 和 对 应 的 目标 变量 “Play”。 我 们 需要 根据 天 气 情况 ， 
将 “ 玩 ” 和 “不 玩 ” 的 参与 者 进行 分 类 。 执 行 步骤 如 下 。 
步骤 1: 把 数据 集 转换 成 频率 表 。 
步骤 2: 利用 类 似 * 当 Overcast 可 能 性 为 0. 29 时 , 玩 (Play) 的 可 能 性 为 0.64” 这 样 的 概 
率 , 创 造 Likelihood 表格 。 如 图 11-6 所 示 。 
步骤 3: 使 用 朴素 贝 叶 斯 等 式 来 计算 每 一 类 的 后 验 概率 。 后 验 概率 最 大 的 类 就 是 预测 
的 结果 。 
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es@@ 


Weather [Play 

Sunny [No Frequency Table 

Overcast | Yes weather No | Yes Weather No Yes 

Rainy Yes |Overcast 4 Overcast | 4 =4/14 0.29 
Sunny |Yes Rainy 3 2 Rainy :Wl =5/14 0.36 
Sunny |Yes [Sunny 2 3 Sunny 2 | 3 =5/14 0.36 
Overcast | Yes [Grand Total 5 9 All -| 济 

Rainy |No =5/14 | =9/14 

Rainy |No 0.36 | 0.64 

Sunny |Yes 

Rainy |Yes 

Sunny _ |No 

Overcast | Yes 

Overcast | Yes 

Rainy |No 


图 11-6 表格 


问题 : 如 果 天 气 晴 朗 ,参与 者 就 能 玩 。 这 个 陈述 正确 吗 ? 

我 们 可 以 使 用 讨论 过 的 方法 解决 这 个 问题 。 于 是 已 (会 玩 | 晴朗 ) 王 已 (晴朗 | 会 玩 ) X 
P( 会 玩 )/P( 晴 朗 ) 

我 们 有 P( 晴 朗 | 会 玩 )==3/9=0. 33,P( 晴 朗 )==5/14==0. 36, 忆 (会 玩 ) 一 9/14 一 0. 64。 

现在 ,P( 会 玩 | 晴朗 ) 二 0.33X0.64/0.36 二 0. 60, 有 更 大 的 概率 。 

朴素 贝 叶 斯 分 类 使 用 了 一 个 相似 的 方法 ,通过 不 同属 性 来 预测 不 同类 别 的 概率 。 这 个 
算法 通常 被 用 于 文本 分 类 ,以 及 涉及 多 个 类 的 问题 。 

Python 代码 ， 


# Import Library 

from sklearn. naive_bayes import GaussianNB 

# Rssumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of 
test_dataset 

# Create SVM classification object model = GaussianNB() # there is other distribution for 
multinomial classes like Bernoulli Naive Bayes, Refer link 

# Train the model using the training sets and check score 

model. fit(X, y) 

#Predict Output 

predicted = model.predict(x_test) 


11.2.6 K 最 近邻 IKNN) 算 法 


K 最 近邻 算法 (K-Nearest Neighbor) ,又 称 KNN 算法 。 该 算法 可 用 于 分 类 问题 和 回归 
问题 。 然 而 ,在 业界 内 ,K 最 近邻 算法 更 常用 于 分 类 问题 。K 最 近邻 算法 是 一 个 简单 的 算 
法 。 它 储存 所 有 的 案例 ,通过 周围 K 个 案例 中 的 大 多 数 情况 划分 新 的 案例 。 根 据 一 个 距离 
函数 ,新 案例 会 被 分 配 到 它 的 K 个 近邻 中 最 普遍 的 类 别 中 去 。 

这 些 距离 函数 可 以 是 欧式 距离 .曼哈顿 距 


离 、 明 氏 距 离 或 者 是 汉 明 距离 。 前 三 个 距离 函数 © 文 口 
用 于 连续 函数 ,第 四 个 距离 函数 ( 汉 明 函数 ) 则 被 © 口 
用 于 分 类 变量 。 如 果 KK 二 1, 新 案例 就 直接 被 分 时 


到 离 其 最 近 的 案例 所 属 的 类 别 中 。 有 时 候 , 使 用 | Er 
KNN 建 模 时 ,选择 KK 的 取 值 是 一 个 挑战 。 如 ee 
图 11-7 所 示 。 图 11-7 K 最 近邻 算法 
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在 现实 生活 中 广泛 地 应 用 了 K 最 邻近 算法 。 例 如 , 想 要 了 解 一 个 完全 陌生 的 人 ,你 也 


许 想 要 去 找 他 的 好 朋友 们 或 者 他 的 圈子 来 获得 他 的 信息 。 


Ls 


在 选择 使 用 K 最 邻近 算法 之 前 ,你 需要 考虑 的 事情 : 
Python 代码 : 


# Import Library 

from sklearn. neighbors import KNeighborsClassifier 

# Rssumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of 
test_dataset 

# Create KNeighbors classifier object model 

KNeighborsClassifier(n neighbors = 6) # default value for n_neighbors is 5 

# Train the model using the training sets and check score 

model. fit(X, y) 

#Predict Output 

predicted = model.predict(x test) 


2.7 均值 算法 
K 均值 算法 是 一 种 非 监督 式 学 习 算法 , 它 能 解决 聚 类 问题 。 使 用 K 均值 算法 来 将 一 个 


数据 归 入 一 定数 量 的 集群 (假设 有 K 个 集群 ) 的 过 程 是 简单 的 。 一 个 集群 内 的 数据 点 是 均 
匀 齐 次 的 ,并 且 异 于 别 的 集群 。 


K 均值 算法 形成 集群 的 原理 如 下 : 

1) K 均值 算法 给 每 个 集群 选择 K 个 点 。 这 些 点 称 作为 质心 。 

2) 每 一 个 数据 点 与 距离 最 近 的 质心 形成 一 个 集群 ,也 就 是 K 个 集群 。 

3) 根据 现 有 的 类 别 成 员 , 找 出 每 个 类 别 的 质心 。 现 在 我 们 有 了 新 质心 。 

4) 当 我 们 有 新 质心 后 ,重复 步骤 2 和 步骤 3。 找 到 距离 每 个 数据 点 最 近 的 质心 ,并 与 新 


的 k 集群 联系 起 来 。 重 复 这 个 过 程 ,直到 数据 都 收敛 了 ,也 就 是 质心 不 再 改变 。 


如 何 决定 值 : 
K 均值 算法 涉及 集群 ,每 个 集群 有 自己 的 质心 。 一 个 集群 内 的 质心 和 各 数据 点 之 间距 


离 的 平方 和 形成 了 这 个 集群 的 平方 值 之 和 。 同 时 , 当 所 有 集群 的 平方 值 之 和 加 起 来 的 时 候 ， 
就 组 成 了 集群 方案 的 平方 值 之 和 。 


我 们 知道 , 当 集 群 的 数量 增加 时 ,K 值 会 持续 下 降 。 但 是 ,如 果 你 将 结果 用 图 表 来 表 


示 ,你 会 看 到 距离 的 平方 总 和 快速 减少 。 到 某 个 值 K 之 后 ,减少 的 速度 就 大 大 下 降 了 。 在 
此 ,我 们 可 以 找到 集群 数量 的 最 优 值 。 如 图 11-8 所 示 。 


Python 代码 : 


# Import Library 

from sklearn. cluster import KMeans 

# Rssumed You have, X (attributes) for training data set and x test(attributes) of test_dataset 
# Create KNeighbors classifier object model 

k means = KMeans(n clusters =3, random state= 0) 

# Train the model using the training sets and check score 

model. fit(X) 

#Predict Output 

predicted= model.predict(x test) 
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图 11-8 集群 数量 的 最 优 值 


11.2.8 随机 森林 算法 


随机 森林 是 表示 决策 树 总 体 的 一 个 专 有 名 词 。 在 随机 森林 算法 中 ,我 们 有 一 系列 的 决 
策 树 ( 因 此 又 名 “森林 ”)。 为 了 根据 一 个 新 对 象 的 属性 将 其 分 类 ,每 一 个 决策 树 有 一 个 分 类 ， 
称 之 为 这 个 决策 树 “ 投 票 ”给 该 分 类 。 这 个 森林 选择 获得 森林 里 (在 所 有 树 中 ) 获 得 票数 最 多 
的 分 类 。 

每 棵 树 是 像 这 样 种 植 养 成 的 : 

(1) 如 果 训 练 集 的 案例 数 是 N, 则 从 N 个 案例 中 用 重 置 抽样 法 随机 抽取 样本 。 这 个 样 
本 将 作为 “养育 ”" 树 的 训练 集 。 

(2) 假如 有 M 个 输入 变量 , 则 定义 一 个 数字 mm 二 二 M。m 表示 ,从 M 中 随机 选中 思 个 


变量 ,这 m 个 变量 中 最 好 的 切 分 会 被 用 来 切 分 该 节点 。 在 种 植 森林 的 过 程 中 ,m 的 值 保持 
不 变 。 

(3) 尽 可 能 大 地 种 植 每 一 棵 树 ,全 程 不 剪 枝 。 

Python 代码 ， 


# Import Library 

from sklearn. ensemble import RandomForestClassifier 

# Rssumed you have, X (predictor) andY (target) for training data set and x_test(predictor) of 
test_dataset 

# Create Random Forest object 

model = RandomForestClassifier() 

# Train the model using the training sets and check score 

model. fit(X, y) 

#Predict Output 

predicted = model.predict(x test) 


11.2.9 降 维 算法 

近年 来 ,信息 捕捉 都 旦 指数 增长 。 公 司 ,政府 机 构 .研究 组 织 在 应 对 着 新 资源 以 外 ,还 要 
捕捉 详尽 的 信息 。 

例如 : 电子 商务 公司 更 详细 地 捕捉 关于 顾客 的 资料 : 个 人 信息 、 网 络 浏览 记录 、 他 们 的 
喜 恶 ,购买 记录 .反馈 以 及 别 的 许多 信息 , 比 你 身边 的 杂货 店 售货员 更 加 关注 你 。 
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作为 一 个 数据 科学 家 ,我 们 提供 的 数据 包含 许多 特点 。 这 听 起 来 给 建立 一 个 经 得 起 考 
验 的 模型 提供 了 很 好 的 材料 ,但 有 一 个 挑战 : 如 何 从 1000 或 者 2000 个 变量 中 分 辨 出 最 重 
要 的 变量 呢 ? 在 这 种 情况 下 , 降 维 算法 和 别 的 一 些 算法 (比如 决策 树 、 随 机 森林 、PCA、 因 子 
分 析 ) 帮 助 我 们 根据 相关 和 矩阵、 缺失 的 值 的 比例 和 别 的 要 素来 找 出 这 些 重要 变量 。 

Python 代码 : 


# Import Library 

from sklearn import decomposition 

# Assumed you have training and test data set as train and test 
# Create PCA obeject pca = decomposition.PCA(n_components =k) #default value of k = min(n 
sample, n_features) 

# For Factor analysis 

#fa= decomposition. FactorAnalysis() 

# Reduced the dimension of training dataset using PCR 

train reduced = pca.fit transform(train) 

# Reduced the dimension of test dataset 

test_reduced = pca.transform(test) 

#For more detail on this, please refer??this link. 


11.2.10 ” Gradient Boosting 和 AdaBoost 算法 


当 我 们 要 处 理 很 多 数据 来 做 一 个 有 高 预测 能 力 的 预测 时 ,我 们 会 用 到 GBM 和 
AdaBoost 这 两 种 boosting 算法 。boosting 算法 是 一 种 集成 学 习 算法 。 它 结合 了 建立 在 多 
个 基础 估计 值 基 础 上 的 预测 结果 ,来 增进 单个 估计 值 的 可 靠 程 度 。 

Python 代码 : 

# Import Library 

from sklearn. ensemble import GradientBoostingClassifier 

# Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of 

test_dataset 

# Create Gradient Boosting Classifier object 

model = GradientBoostingClassifier(n_estimators = 100, learning_rate = 1.0, max_depth=1, 

random_state = 0) 

# Train the model using the training sets and check score 

model. fit(X, y) 

#Predict Output 

predicted = model. predict(x_test) 


11.3 KK 最 近邻 算法 银行 贷款 分 类 的 Python 应 用 


K 最 近邻 分 类 算法 是 数据 挖掘 中 较为 简单 的 一 种 分 类 方法 ,通过 计算 不 同 数据 点 间 的 
距离 对 数据 进行 分 类 ,并 对 新 的 数据 进行 分 类 预测 。 前 一 节 介 绍 过 。 本 节 介 绍 在 Python 
中 使 用 机 器 学 习 库 sklearn 建立 K 最 近邻 (K-Nearest Neighbor, KNN) 模 型 的 过 程 并 使 用 
模型 对 数据 进行 预测 。 


11.3.1 准备 工作 


首先 是 开始 前 的 准备 工作 ,导入 需要 使 用 的 库 文件 。 这 里 一 共 需 要 使 用 5 个 库 文件 。 
第 一 个 是 机 器 学 习 库 ,第 二 个 是 用 于 模型 检验 的 交叉 检验 库 , 第 三 个 是 数值 计算 库 ,第 四 个 
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号 加 


et 


是 科学 计算 库 , 最 后 是 图 表 库 。 


Ll 


## 导 人 机 器 学 习 KNN 分 析 库 
from sklearn. neighbors import KNeighborsClassifier 


# 导 入 交叉 验证 库 

from sklearn import cross_validation 
# 导 人 数值 计算 库 

import NumPY as np 

## 导 入 科学 计算 库 

import Pandas as pd 

## 导 入 图 表 库 

import matplotlib. pyplot as plt 


3.2 读 取 并 查看 数据 表 
读 取 并 导入 所 需 数据 ,创建 名 为 knn_data 的 数据 表 ( 数 据 存在 目录 G:\\2glkx\\data\\ 


中 ) ,后 面 我 们 将 使 用 这 个 数据 对 模型 进行 训练 和 检验 。 


# 读 取 并 创建 名 为 knn_data 的 数据 表 
knn_data = pd. DataFrame( pd. read_csv( 'G:\\2glkx\\data\\knn_data. csv')) 


使 用 head 函数 查看 数据 表 的 内 容 , 这 里 只 查看 前 5 行 的 数据 ,数据 表 中 包含 三 个 字段 ， 


分 别 为 贷款 金额 .用户 收入 和 贷款 状态 。 我 们 希望 通过 贷款 金额 和 用 户 收 入 对 最 终 的 贷款 
状态 进行 分 类 和 预测 。 


11. 


# 查 看 数据 表 前 5 行 

knn_data. head(5) 

loan amnt annual_ inc loan status 

0 5000 54000 Fully Paid 
+ 2500 30000 Charged Off 
2 2400 72252 Fully Paid 
3 10000 89200 Fully Paid 
4 5000 66000 Fully Paid 


3.3 绘制 散 点 图 观察 分 类 
创建 模型 之 前 先 对 数据 汇总 散 点 图 ,观察 贷款 金额 和 用 户 收入 两 个 变量 的 关系 以 及 对 


贷款 状态 的 影响 。 下 面 是 具体 的 代码 ,根据 贷款 状态 将 数据 分 为 两 组 ,第 一 组 为 Fully 
Paid ,第 二 组 为 Charged Off 。 


# Fully Paid 数据 集 的 xl 

fully_paid loan= knn_data. loc[ (knn_data[ "loan_status"] == "Fully Paid"),["loan amnt"]] 
#Fully Paid 数据 集 的 yl 

fully_paid annual = knn_data. loc[ (knn_data["loan status"] == "Fully Paid"),["annual_inc"]] 
## Charge Off 数据 集 的 x2 

charged off loan= knn data. loc[ (knn data["loan status"] == "Charged Off"),["loan amnt"]] 
## Charge Off 数据 集 的 Y2 

charged off annual = knn_data. loc[(knn_data[ "loan_status"] == "Charged Off"),["annual_ 
inc"]] 
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数据 分 组 后 开始 绘制 散 点 图 ,下 面 是 绘图 过 程 和 具体 的 代码 。 © 
# 设 置 图 表 字 体 为 华文 细 黑 ,字号 15 加 


plt.rc('font', family= 'STXihei'，size=15) 

# 绘 制 散 点 图 ,Folly Paid 数据 集 贷款 金额 对 ,用 户 年 收入 到, 设置 颜色 ,标记 点 样式 和 透明 度 等 参数 
plt. scatter(fully_paid_ loan, fully paid annual,color = '#9b59b6', marker = ""',s = 60) 

# 绘 制 散 点 图 ,Charge 0ff 数据 集 贷款 金额 x2, 用 户 年 收入 y2, 设 置 颜色 、 标 记 点 样式 和 透明 度 等 参数 
plt. scatter(charged_off_loan, charged_off _annual, color = '#3498db', marker = '0',s = 60) 

# 添 加 图 例 , 显示 位 置 右上 角 

plt. legend([ 'Fully Paid', 'Charged Off'], loc= 'upper right') 

# 添 加 x 轴 标题 

plt. xlabel( 'loan amount') 

# 添加 Y 轴 标题 

plt. ylabel('annual_inc') 

# 添加 图 表 标 题 

plt. title( 'loan amount&annual_inc') 

# 设 置 背景 网 格 线 颜色 ,样式 ,尺寸 和 透明 度 

plt.grid( linestyle= '-- '，1linewidth=0.2) 

## 显示 图 表 

plt. show() 


在 散 点 图 中 ,三 角形 为 Fully Paid 组 , 圆 形 为 Charged Off 组。 我们 所 要 做 的 是 通过 
KNN 模型 对 这 两 组 数据 的 特征 进行 学 习 , 例 如 从 肉眼 来 看 ,Fully Paid 组 用 户 收 入 要 高 于 
Charged Off 组 。 并 使 用 模型 对 新 的 数据 进行 分 类 预测 。 如 图 11-9 所 示 。 


loan amount& annual_inc 
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图 11-9 散 点 图 


11.3.4 建立 分 类 模型 


1. 设置 模型 的 自 变 量 和 因 变 量 


创建 KNN 模型 前 , 先 设置 模型 中 的 自 变 量 和 因 变 量 , 也 就 是 特征 和 分 类 。 这 里 将 贷款 
金额 和 用 户 收 入 设置 为 自 变量 ,贷款 状态 是 我 们 希望 预测 的 结果 ,因此 设置 为 因 变 量 。 


# 将 贷款 金额 和 用 户 收入 设 为 自 变量 x 

X = np.array(knn data[['loan amnt', 'annual inc']]) 
# 将 贷款 状态 设 为 因 变量 

Y = np.array(knn_data[ 'loan status']) 
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设置 完成 后 查看 自 变 量 和 因 变 量 的 行 数 ,这 里 一 共有 16 行 数据 ,后 面 我 们 将 把 这 16 行 
数据 分 割 为 训练 集 和 测试 集 , 训 练 集 用 来 建立 模型 ,测试 集 则 对 模型 的 准确 率 进行 检验 。 


# 查 看 自 变 量 和 因 变 量 的 行 数 
X. shape, Y. shape 


2. 将 数据 分 割 为 训练 集 和 测试 集 


采用 随机 抽样 的 方式 将 数据 表 分 割 为 训练 集 和 测试 集 ,其 中 60% 的 训练 集 数 据 用 来 训 
练 模型 , 40% 的 测试 集 数据 用 来 检验 模型 准确 率 。 


# 将 原始 数据 通过 随机 方式 分 割 为 训练 集 和 测试 集 ,其 中 测试 集 占 比 为 40% 


XxX train, X test, y train, y test = cross validation. train test split(X, Y, test size= 0.4, 


random state = 0) 
分 割 后 测试 集 的 数据 为 9 条。 这些 数 据 用 来 训练 模型 。 


# 查 看 训练 集 数据 的 行 数 
X_train, shape, y_train. shape 


3. 对 模型 进行 训练 
将 训练 集 数 据 X_train 和 y_train 代入 KNN 模型 中 ,对 模型 进行 训练 。 下 面 是 具体 的 
代码 和 结果 。 


# 将 训练 集 代入 KNN 模型 中 
clf = KNeighborsClassifier(n neighbors = 3) 
clf.fit(X train,y train) 


4. 使 用 测试 集 测 对 模型 进行 测试 
使 用 测试 集 数据 X_test 和 y_test 对 训练 后 的 模型 进行 检验 ,模型 准确 率 为 100%% 。 
# 使 用 测试 集 衡量 模型 准确 度 


clf. score(X_test, y_test) 

完成 训练 和 测试 后 ,使 用 模型 对 新 数据 进行 分 类 和 预测 。 下 面 我 们 建立 一 组 新 的 数据 ， 
贷款 金额 为 5000 元 ,用 户 收入 为 40000 元 ,看 看 模型 对 新 数据 的 分 组 结果 。 

# 设 置 新 数据 ,贷款 金额 5000, 用 户 收入 40000 

new data = np.array([[5000,40000]]) 

模型 对 新 数据 的 分 组 结果 为 Charged Off。 这 个 分 类 准确 吗 ? 我 们 继续 青 来 看 下 模型 
对 这 组 新 数据 分 组 的 概率 。 

# 对 新 数据 进行 分 类 预测 


clf.predict(new_data) 
67% 的 概率 为 Charged Off,33s% 的 概率 为 Fully Paid。 根 据 这 一 概率 模型 将 新 数据 划分 到 Charged 


Off 组 。 
# 新 数据 属于 每 一 个 分 类 的 概率 
clf.classes ,clf.predict proba(new data) 
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(array([ 'Charged Off', 'Fully Paid'], dtype = object), 
array([[ 0.66666667, 0.33333333]])) 


11.4 各 种 机 器 学 习 算 法 的 Python 应 用 
11.4.1 载 入 数据 


1. 需要 准备 的 程序 包 


做 机 器 学 习 应 用 ,我 们 需要 准备 的 程序 包 如 下 : 
(1) NumPy, 用 于 数据 计算 ; 

(2) SciPy, 用 于 科学 计算 ; 

(3) Matplotlib, 用 于 绘图 ; 

(4) Scikit-learn, 用 于 机 器 学 习 ; 

(5) IPython; 集成 系统 。 


2. 读 取 数据 


首先 我 们 需要 载 和 一些 用 来 操作 的 数据 ,使 用 的 数据 是 非常 简单 的 著名 的 花 人 打数 
据 一 一 安德森 高 尾 花 卉 数据 集 。 

我 们 有 150 个 意 尾 花 的 一 些 尺 十 的 观测 值 : 莹 片 长 度 、 宽 度 , 花 因 长度、 宽度。 还 有 它 
们 的 亚 属 : 山 竟 尾 (iris setosa) ,变色 药 尾 (iris versicolor) 和 维 吉 尼 亚 苞 尾 (iris Virginica) 

向 Python 对 象 载 和 数据 : 


from sklearn import datasets 
iris = datasets. load iris() 


数据 存储 在 . data 项 中 ,是 一 个 (n_samples, n_features) 数 组 。 


iris. data. shape 

Out[3]: (150, 4) 

每 个 观察 对 象 的 种 类 存储 在 数据 集 的 . target 属性 中 。 这 是 一 个 长 度 为 n_samples 的 
整数 一 维 数组 : 

iris. target. shape 

Out[19]: (150,) 

import NumPy as np 


np. uniquel( iris. target) 
Out[20]: array([0, 1, 2]) 


3. 一 个 改变 数据 集 大 小 的 示例 : 数码 数据 集 (digits datasets) 
数码 数据 集 1 包括 1797 个 图 像 ,每 一 个 都 是 个 代表 手写 数字 的 8X8 像素 图 像 。 


digits = datasets. load digits() 
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digits. images. shape 

import pylab as pl 

pl. imshow(digits. images[0], cmap= p1.cm. gray_r) 
pl. show() 


为 了 在 scikit 中 使 用 这 个 数据 集 ,我 们 把 每 个 8X8 图 像 转换 成 长 度 为 64 的 矢量 (或 者 


直接 用 digits. data) 。 


data = digits. images. reshapel( (digits. images. shape[0], -1)) 


4. 学 习 和 预测 
现在 已 经 获得 一 些 数据 ,要 从 中 学 习 和 预测 一 个 新 的 数据 。 在 scikit-learn 中 ,我 们 通 


过 创建 一 个 估计 器 (estimator) 从 已 经 存在 的 数据 学 习 , 并 且 调 用 它 的 fit(X,Y) 方 法 。 


1 


from sklearn import svm 
clf = svnm.LinearSVC() 
clf.fit(iris. data, iris.target) # learn from the data 


得 到 如 下 结果 : 


Out[23] : 

LinearSVC(C=1.0, class_weight = None, dual = True, fit_intercept = True, 
intercept_scaling = 1, loss = 'squared hinge', max_iter = 1000, 
multi_class = 'ovr', penalty = '12', random state = None, tol = 0.0001, 
verbose = 0) 


一 旦 我 们 已 经 从 数据 学 习 , 我 们 可 以 使 用 我 们 的 模型 来 预测 未 观测 数据 最 可 能 的 结果 。 


clf. predict([[ 5.0, 3.6, 1.3, 0.25]]) 
Out[24]: array([0]) 


注意 : 我 们 可 以 通过 它 以 下 划 线 结束 的 属性 存 取 模型 的 参数 。 


clf.coef_ 

Out[25]: 

array([[ 0.18423586, 0.45123243, -0.80794388, -0.45071334], 
[ 0.05107627, -0.89201609, 0.40574191, -0.9394283 ], 
[~ 0.85076343, -0.98671944, 1.38098387, 1.8654622 ]]) 


4.2 分 类 


1. KNN 分 类 


(1) K 最 近邻 (KNN) 分 类 器 
最 简单 的 可 能 的 分 类 器 是 最 近邻 : 给 定 一 个 新 的 观测 值 ,将 n 维 空间 中 最 靠近 它 的 训 


练 样本 标签 给 它 。 其 中 是 每 个 样本 中 的 特性 (features) 数 。 


K 最 近邻 2 分 类 器 内 部 使 用 基于 球 树 (ball tree) 来 代表 它 训 练 的 样本 。 
KNN 分 类 示例 : 


# Create and fit a nearest - neighbor classifier 
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from sklearn import neighbors S 
from sklearn import neighbors 多 
knn = neighbors. KNeighborsClassifier() 
knn.fit(iris. data, iris. target) 
Out[31]: 
KNeighborsClassifier(algorithm = 'auto', leaf size= 30, metric= 'minkowski', 


图 


metric_params = None, n jobs=1, n neighbors=5, p=2, 
weights = "uniform') 

knn. predict([[0.1, 0.2, 0.3, 0.4]]) 

Out[32]: array([0]) 


(2) 训练 集 和 测试 集 
当 验 证 学 习 算 法 时 ,一 定 不 要 用 一 个 用 来 拟 合 估计 器 的 数据 来 验证 估计 器 的 预测 。 通 
过 KNN 估计 器 ,我 们 将 获得 关于 训练 集 完美 的 预测 。 


perm = np. random. permutation(iris. target. size) 

iris.data = iris. data[perm] 

iris. target = iris.target[perm] 

knn. fit(iris. data[ :100], iris. target[ :100]) 

Out[33]: 

KNeighborsClassifier(algorithm = 'auto', leaf size= 30, metric= 'minkowski', 
metric_params = None, n_jobs=1, n neighbors=5, p=2, 
weights = "uniform') 

knn. scorel( iris. data[100:], iris.target[100:]) 

Out[34]: 1.0 


3. 使 用 LDA 模型 进行 分 类 


线性 判别 式 分 析 (linear discriminant analysis,LDA) ,是 模式 识别 的 经 典 算法 。 通 过 对 
历史 数据 进行 投影 ,以 保证 投影 后 同一 类 别 的 数据 尽量 靠近 .不同 类别 的 数据 尽量 分 开 。 并 
生成 线性 判别 模型 ,对 新 生成 的 数据 进行 分 离 和 预测 。 本 节 使 用 机 器 学 习 库 scikit-learn 建 
立 LDA 模型 ,并 通过 绘图 展示 LDA 的 分 类 结果 。 

(1) 准备 工作 

首先 是 开始 前 的 准备 工作 ,导入 需要 使 用 的 库 文件 ,本 篇 文章 中 除了 常规 的 数值 计算 库 
NumPy、 科 学 计算 库 Pandas 和 绘图 库 matplotlib 以 外 :还 有 绘图 库 中 的 颜色 库 , 以 及 机 器 
学 习 中 的 数据 预 处 理 和 LDA 库 。 


# 导 入 数值 计算 库 

import NumPy as np 

# 导 人 科学 计算 库 

import Pandas as pd 

# 导 入 绘图 库 

import matplotlib. pyplot as plt 

# 导 人 绘图 色彩 库 产生 内 置 颜色 

from matplotlib. colors import ListedColormap 
# 导 入 数据 预 处 理 库 

from sklearn import preprocessing 

# 导 入 linear discriminant analysis 库 
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from sklearn. lda import LDA 


(2) 读 取 数据 
读 取 并 创建 名 称 为 data 的 数据 表 , 后 面 我 们 将 使 用 这 个 数据 表 创 建 LDA 模型 并 绘图 。 
# 读 取 数据 并 创建 名 为 data 的 数据 表 


df = pd. read_csv( 'G:\\2glkx\\data\\pbdatal. csv') 
data = pd. DataFrame( df) 


使 用 head 函数 查看 数据 表 的 前 5 行 ,这 里 可 以 看 到 数据 表 共 有 三 个 字段 ,分 别 为 贷款 


金额 loan_amnt、 用 户 收入 annual _ inc 和 贷款 状态 loan_status 。 


# 查 看 数据 表 的 前 5 行 
data. head( ) 
Out[8]: 

loan amnt annual inc loan status 
0 5000 54000 Fully Paid 
1 2500 30000 Charged Off 
2 2400 72252 Fully Paid 
3 10000 89200 Fully Paid 
4 5000 66000 Fully Paid 


(3) 设置 模型 特征 X 和 目标 Y 
将 数据 表 中 的 贷款 金额 和 用 户 收入 设置 为 模型 特征 X, 将 贷款 状态 设置 为 模型 目标 Y， 


也 就 是 我 们 要 分 类 的 结果 。 


# 设 置 贷款 金额 和 用 户 收入 为 特征 X 

X = np.array(data[['loan amnt', 'annual_inc']]) 

# 设 置 贷款 状态 为 目标 Y 

Y = np.array(data[ 'loan_status']) 

(4) 对 特征 进行 标准 化 处 理 

贷款 金额 和 用 户 收 入 间 差 异 较 大 ,属于 两 个 不 同 量 级 的 数据 。 因 此 需要 对 数据 进行 标 


准 化 处 理 , 转 化 为 无 量 纲 的 纯 数值 。 


# 特征 数据 进行 标准 化 处 理 
scaler = preprocessing. StandardScaler().fit(X) 
X_Standard = scaler. transform(X) 


下 面 是 经 过 标准 化 处 理 后 的 特征 数据 。 


# 查 看 标准 化 后 的 特征 数据 

X_Standard 

Out[12] : 

array([[ - 0.34202056, -0.44598557], 
[~—1.05456341, -1.24831331], 
[~—1.08306512, 0.16418467], 
[ 1.08306512, 0.73076178], 
[ -0.34202056，- 0.0448217 ], 
[~—0.91205484, —1.18145267], 
[~—0.96905827, — 1.04773138], 


Si 
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[ 1.6530994, 0.82436668], 
[ 1.36808226, 0.92465765], 
[~—0.99755998, —1.0811617 ], 
[ 1.02606169, 0.95808797], 
[ 0.91205484, 0.92465765], 
[ 0.79804798, 1.76041571], 
[—0.94055655, —1.14802235], 
[~—0.96905827, —1.11459202], 
[ 0.76954627, 1.02494861]]) 

# 设 置 分 类 平滑 度 

h =0.01 


(5) 创建 LDA 模型 并 拟 合 数据 

将 标准 化 后 的 特征 X 和 目标 Y 代入 LDA 模型 中 。 下 面 是 具体 的 代码 和 计算 结果 。 
# 创建 LDA 模型 

clf = LDA() 

res = clf.fit(X_Standard,Y) 

print clf 


print res 
得 到 如 下 结果 : 


LinearDiscriminantAnalysis(n_components = None, priors = None, shrinkage = None, 
solver = 'svd', store covariance= False, tol = 0.0001) 

LinearDiscriminantAnalysis(n_components = None, priors = None, shrinkage = None, 
solver = 'svd', store covariance= False, tol = 0.0001) 


11.4.3 分 类 支持 向 量 机 (SVM) 


1. 线性 支持 向 量 机 


分 类 支持 向 量 机 (SVM) 尝 试 构建 一 个 两 个 类 别 的 最 大 间隔 超 平面 。 它 选择 输入 的 子 
集 , 调 用 支持 向 量 即 离 分 离 的 超 平面 最 近 的 样本 点 。 


from sklearn import svm 
svc = Svm.SVC(kernel = 'linear') 
svc. fit(iris. data, iris. target) 


得 到 如 下 结果 : 


Out[35]: 

SVC(C=1.0, cache size= 200, class weight = None, coef0 = 0.0, 
decision function shape = None, degree = 3, gamma = 'auto', kernel = 'linear', 
max_iter = —1, probability= False, random state = None, shrinking = True, 
tol = 0.001, verbose = False) 


scikit-learn 中 有 好 几 种 支持 向 量 机 实现 。 最 普遍 使 用 的 是 svm. SVC,svm. NuSVC 和 
svm. LinearSVC;“SVC” 代 表 支 持 向 量 分 类 器 (Support Vector Classifier) (也 存在 回归 
SVM ,在 scikit-learn 中 叫 作 “SVR”)。 
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练习 : 训练 一 个 数字 数据 集 的 svm. SVC。 省 略 最 后 10% 并 且 检 验 观 测 值 的 预测 表现 。 
2. 使 用 核 


es@@ 


类 别 不 总 是 可 以 用 超 平 面 分 离 , 所 以 人 们 指望 有 些 可 能 是 多 项 式 或 指数 实例 的 非 线 性 
决策 函数 。 
(1) 线性 核 


SVC = svm.SVC(kernel = 'linear') 

(2) 多 项 式 核 

‘svc = svm.SVC(kernel = 'poly',... degree = 3) 
(3) RBF 核 ( 径 向 基 函 数 ) 


SVC = svm.SVC(kernel = 'rbf') 
# gamma: inverse of size of 
# radial kernel 


思考 : 上 面 的 哪些 核对 数字 数据 集 有 更 好 的 预测 性 能 ?( 前 两 个 ) 
11.4.4 聚 类 


给 定 功 尾 花 数据 集 , 如 果 知 道 这 里 有 三 种 高 尾 花 ,但 是 无 法 得 到 它们 的 标签 ,可 以 尝试 
非 监 督学 习 : 可 以 通过 某 些 标准 聚 类 观测 值 到 几 个 组 别 里 。 

最 简 答 的 聚 类 算法 是 K 均值 算法 。 这 将 一 个 数据 分 成 K 个 集群 ,以 最 小 化 观测 值 (> 
维 空间 中 ) 到 聚 类 中 心 的 均值 来 分 配 每 个 观测 点 到 集群 ,然后 均值 重新 被 计算 。 这 个 操作 递 
归 运 行 直到 聚 类 收敛 ,在 max_iter 回合 内 到 最 大 值 。 

(一 个 替代 的 KK 均值 算法 实现 在 SciPy 中 的 cluster 包 中 。 这 个 scikit-learn 实现 与 之 
不 同 ,通过 提供 对 象 API 和 几 个 额外 的 特性 ,包括 智能 初始 化 。) 


from sklearn import cluster, datasets 

iris = datasets. load iris() 

k means = cluster. KMeans(3) 

k means. fit(iris. data) 

Out[39]: 

KMeans(copy x= True, init = 'k— meanst+', max_iter = 300, n_ clusters=3, n_init=10, 
n_jobs=1, precompute distances = 'auto', random state= None, tol = 0.0001, 
verbose = 0) 

print k_means. labels_[::10] 

[111112222200000] 


11.4.5 用 主 成 分 分 析 PCA 降 维 


以 上 根据 观测 值 标记 的 点 ,在 一 个 方向 非常 平坦 ,所 以 一 个 特性 几乎 可 以 用 其 他 两 个 确 
切 地 计算 。PCA 可 以 发 现 哪 个 方向 的 数据 不 是 平 的 ,并 且 它 可 以 通过 在 一 个 子 空 间 投影 来 
降 维 。 注 意 : PCA 将 在 模块 decomposition 或 pca 中 ,这 取决 于 scikit-learn 的 版 本 。 
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from sklearn import decomposition 


pca = decomposition.PCA(n components = 2) 

pca. fit(iris. data) 

Out[45]: PCA(copy = True，n_components = 2, whiten= False) 
X = pca.transform(iris. data) 


现在 我 们 可 以 将 ( 降 维 过 的 ) 药 尾 花 数据 集 可 视 化 : 


import pylab as pl 
pl. scatter(X[:, 0], Xx[:, 1], c= iris. target) 


最 后 得 到 如 图 11-10 所 示 的 图 形 。 


1.5 
10|  。 人 | 
。 oo 
05| oF FRR 
忆 曲 和 0 
0 宝 ot | 
-0.5 宇 EE A 
4 。 2- 
-1.0 : 。 
机 。 
-1.5| ] 
ER 
图 11-10 散 点 图 


PCA 不 仅 在 可 视 化 高 维 数据 集 时 非常 有 用 。 它 可 以 用 来 作为 帮助 加 速 对 高 维 数据 不 
那么 有 效率 的 监督 方法 的 预 处 理 步骤 。 


11.4.6 线性 模型 : 从 回归 到 稀 政 


1. 糖尿 病 数 据 集 


糖尿 病 数 据 集 包含 测量 442 个 病人 而 得 的 10 项 生理 指标 (年 龄 ,性 别 、 体 重 、 血 压 ), 和 
一 年 后 疾病 进展 的 指示 : 

diabetes = datasets. load diabetes() 

diabetes X train = diabetes. data[: ~- 20] 

diabetes X test = diabetes.data[ -20:] 

diabetes y train = diabetes. target[:— 20] 

diabetes y test = diabetes.target[ ~ 20:] 


我 们 的 任务 是 从 生理 指标 预测 疾病 。 

2. 稀疏 模型 

为 了 改善 问题 的 条 件 ( 无 信息 变量 ,减少 维度 的 不 利 影响 ,作为 一 个 特性 (feature) 选 择 
的 预 处 理 , 等 等 ) ,我 们 只 关注 有 信息 的 特性 ,将 没有 信息 的 特性 设置 为 0。 这 个 罚 则 函数 


法 , 叫 作 套 索 (lasso) ,可 以 将 一 些 系 数 设 置 为 0。 这 些 方法 叫 作 稀 政 方法 (sparse method)， 
稀 朴 化 可 以 被 视 作 奥 卡 姆 剃刀 : 相对 于 复杂 模型 更 倾向 于 简单 的 。 
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from sklearn import linear model 

regr = linear model.Lasso(alpha = .3) 

regr. fit(diabetes xX train, diabetes y train) 

Out[54]: 

Lasso(alpha = 0.3, copy X= True, fit intercept = True, max iter= 1000, 


normalize = False, positive = False, precompute = False, random state = None, 
selection= 'cyclic', tol = 0.0001, warm start = False) 
regr.coef # very sparse coefficients 


Out[55]: 

array([ [ wm -0. ， 497.34075682, 199.17441034, 
-0. ’ -0. , -118.89291545, 0. 
430.9379595 ， 0. ]) 


regr. score(diabetes X test, diabetes y test) 
Out[56]: 0.55108354530029768 


这 个 分 数 和 线性 回归 (最 小 二 乘法 ) 非 常 相似 : 


lin = linear model.LinearRegression() 
lin.fit(diabetes X train, diabetes y train) 


得 到 如 下 结果 : 


Out[65]: LinearRegression(copy X= True, fit_intercept = True，n_jobs = 1，normalize = False) 
lin. score(diabetes X test, diabetes_y test) 
Out[66]: 0.58507530226905735 


3. 同一 问题 的 不 同 算法 


同一 数学 问题 可 以 用 不 同 算法 解决 。 例 如 ,sklearn 中 的 lasso 对 象 使 用 坐标 下 降 
(coordinate descent) 方 法 解决 套 索 回归 ,这 在 大 数据 集 时 非常 有 效率 。 然 而 ,sklearn 也 提 
供 了 lasso LARS 对 象 ,LARS 在 解决 权重 向 量 估计 非常 稀疏 、 观 测 值 很 少 的 问题 时 是 很 有 
效率 的 方法 。 


11.4.7 交叉 验证 估计 器 


交叉 验证 在 一 个 algorithm by algorithm 基础 上 可 以 更 有 效 地 设 定 参数 。 这 就 是 为 什 
么 对 给 定 的 估计 器 ,scikit-learn 使 用 CV” 估计 器 ,通过 交叉 验证 自动 设 定 参 数 。 


from sklearn import linear model, datasets 

lasso = linear model.LassoCV() 

diabetes = datasets. load diabetes() 

X diabetes = diabetes. data 

y_diabetes = diabetes. target 

lasso. fit(X diabetes, y diabetes) 

Out[67]: 

LassoCV(alphas = None, copy X= True, cv= None, eps = 0.001, fit intercept = True, 
max_iter =1000, n alphas = 100，n_jobs = 1，normalize = False, positive= False, 
precompute = 'auto', random state = None, selection= 'cyclic', tol = 0.0001, 
verbose = False) 

# The estimator chose automatically its lambda: 
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lasso.alpha 
Out[68]: 0.013180196198701137 


这 些 估计 器 是 相似 的 ,以 ‘CV’ 为 它们 名 字 的 后 级 。 
11.5 KK 最 近邻 算法 分 类 的 Python 应 用 


11.5.1 人 工 生 成 数据 的 K 最 近邻 法 分 类 Python 应 用 


scikit-learn 是 Python 中 一 个 功能 非常 齐全 的 机 器 学 习 库 ,本 节 将 介绍 如 何 用 scikit- 
learn 来 进行 KNN 分 类 计算 。 
准备 工作 如 下 : 


from sklearn import neighbors 


1. 初始 化 及 其 功能 解释 


我 们 讨论 的 是 scikit-learn 库 中 的 neighbors. KNeighborsClassifier ,翻译 为 K 最 近邻 分 
类 功能 ,也 就 是 我 们 常 说 的 KNN(K-Nearest Neighbors)。 
首先 进行 这 个 类 初始 化 : 


neighbors. KNeighborsClassifier(n _neighbors = 5, weights = ‘uniform', algorithm = 'auto', leaf_ 

size= 30, p=2, metric = 'minkowski', metric params = None, n— jobs = 1),。 

其 中 : 

(1) n_neighbors: 是 KNN 里 的 人 ,就 是 在 做 分 类 时 ,我 们 选取 问题 点 最 近 的 多 少 个 最 近邻 ; 

(2) weights 是 在 进行 分 类 判断 时 给 最 近邻 附 上 的 加 权 , 上 默认 的 'uniform' 是 等 权 加 权 ， 
还 有 'distance' 选 项 是 按照 距离 的 倒数 进行 加 权 , 也 可 使 用 用 户 自 己 设置 的 其 他 加 权 方 法 。 
例如 : 假如 距离 询问 点 最 近 的 三 个 数据 点 中 ,有 1 个 A 类 和 2 个 B 类 ,并 且 假 设 A 类 离 询 
问 点 非常 近 , 而 两 个 BB 类 距离 则 稍 远 。 在 等 权 加 权 中 ,选取 问题 点 最 近邻 的 行 会 判断 问题 点 
为 B 类 ; 而 如 果 使 用 距离 加 权 , 那 么 A 类 有 更 高 的 权重 (因为 更 近 ), 如 果 它 的 权重 高 于 两 个 B 
类 的 权重 的 总 和 ,那么 算法 会 判断 问题 点 为 A 类。 权重 功能 的 选项 应 该 视 应 用 的 场景 而 定 。 

(3) algorithm 是 分 类 时 采取 的 算法 ,有 'brute'、'kd_tree' 和 'ball_tree'。kd_tree 的 算法 
在 kd 树 中 有 详细 介绍 ,而 ball_tree 是 另 一 种 基于 树 状 结构 的 kNN 算法 ,brute 则 是 最 直接 
的 蛮 力 计算 。 根 据 样本 量 的 大 小 和 特征 的 维度 数量 ,不 同 的 算法 有 各 自 的 优势 。 默 认 的 
'auto ' 选 项 会 在 学 习 时 自动 选择 最 合适 的 算法 ,所 以 一 般 来 讲 选择 auto 即 可 。 

(4) leaf_size 是 kd_tree 或 ball_tree 生成 的 树 的 树叶 (树叶 就 是 二 叉 树 中 没有 分 枝 的 节 
点 ) 的 大 小 。 在 kd 树 中 我 们 所 有 的 二 叉 树 的 叶子 中 都 只 有 一 个 数据 点 ,但 实际 上 树叶 中 可 
以 有 多 于 一 个 的 数据 点 ,算法 在 达到 叶子 时 在 其 中 执行 蛮 力 计算 即 可 。 对 于 很 多 使 用 场景 
来 说 ,叶子 的 大 小 并 不 是 很 重要 ,我 们 设 leaf_size 一 1 就 好 。 

(5) metric 和 p, 是 KNN 中 的 距离 函数 的 选项 ,如 果 metric 一 "minkowski' 并 且 p= 二 p 
的 话 ,计算 两 点 之 间 的 距离 就 是 


dos gD) = (Fan le) 
i=1 
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一 般 来 讲 , 默 认 的 metric 二 'minkowski'( 上 默认 ) 和 p= 二 2( 默 认 ) 就 可 以 满足 大 部 分 需求 。 
其 他 的 metric 选项 可 参见 相关 说 明文 档 。 

(6) metric_params 是 一 些 特 殊 metric 选项 需要 的 特定 参数 ,默认 是 None。 

(7) n_jobs 是 并 行 计算 的 线程 数量 .默认 是 1, 输 入 一 1 则 设 为 CPU 的 内 核 数 。 


2. 拟 合 及 其 功能 解释 


在 创建 了 一 个 KNeighborsClassifier 类 之 后 ,我 们 需要 通过 数据 来 进行 学 习 。 这 时 需 
要 使 用 fit() 拟 合 功 能 。 


neighbors. KNeighborsClassifier. fit(X,y) 


在 这 里 : X 是 一 个 list 或 array 的 数据 ,每 一 组 数据 可 以 是 tuple 也 可 以 是 list 或 者 一 
维 array, 但 要 注意 所 有 数据 的 长 度 必须 一 样 (等 同 于 特征 的 数量 )。 当 然 , 也 可 以 把 X 理解 
为 一 个 矩阵 ,其 中 每 一 横行 是 一 个 样本 的 特征 数据 。y 是 一 个 和 X 长 度 相 同 的 list 或 
array, 其 中 每 个 元 素 是 X 中 相对 应 的 数据 的 分 类 标签 。 

KNeighborsClassifier 类 在 对 训练 数据 执行 fit() 后 会 根据 原先 algorithm 的 选项 ,依据 
训练 数据 生成 一 个 kd_tree 或 者 ball_tree。 如 果 输 入 是 algorithm='brute', 则 什么 都 不 做 。 
这 些 信息 都 会 被 保存 在 一 个 类 中 ,我 们 可 以 用 它 进 行 预测 和 计算 。 几 个 常用 的 功能 如 下 。 

(1) K 最 近邻 

neighbors. KNeighborsClassifier. kneighbors (X = None, n_ neighbors = None, return_distance = 

True) 

这 里 X 是 一 个 list 或 array 的 坐标 ,如 果 不 提 供 , 则 默认 输入 训练 时 的 样本 数据 。 

n_neighbors 是 指定 搜寻 最 近 的 样本 数据 的 数量 , 如 果 不 提供 , 则 以 初始 化 
kNeighborsClassifier 时 的 n_neighbors 为 准 。 

这 个 功能 输出 的 结果 是 (dist 二 arrayLarray[float]], index 王 arrayLarray[int]]) 。index 
的 长 度 和 X 相同 ,index[ 让 是 长 度 为 n_neighbors 的 一 array 的 整数 ; 假设 训练 数据 是 fit(X_ 
train，y_train) ,那么 X_train(index[i 计 [Dj]) 是 在 训练 数据 (X_train) 中 离 X[ 让 第 j 近 的 元 素 ， 
并 且 dist[i 订 [是 它们 之 间 的 距离 。 

输入 的 return_distance 是 是 否 输出 距离 ,如 果 选 择 False, 那 么 功能 的 输出 会 只 有 index 
而 没有 dist。 

(2) 预测 


neighbors.kNeighborsClassifier.predict(X) 


也 许 是 最 常用 的 预测 功能 。 输 入 X 是 一 个 list 或 array 的 坐标 ,输出 y 是 一 个 长 度 相 
同 的 array,y[ 让 是 通过 KNN 分 类 对 X[ 训 所 预测 的 分 类 标签 。 
(3) 概率 预测 


neighbors. kNeighborsClassifier. predict proba(X) 


输入 和 上 面 的 相同 ,输出 p 是 array[array[float]],p[iD] 是 通过 概率 KNN 判断 X[ 记 属于 
第 j 类 的 概率 。 这 里 类 别 的 排序 是 按照 词典 排序 。 举 例 来 说 ,如 果 训 练 用 的 分 类 标签 里 有 
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(1, 01"a) 三 种 ,那么 1 就 是 第 0 类 ,'1' 是 第 1 类 ,'a' 是 第 2 类 ,因为 在 Python 中 1<'1'<'a'。 

(4) 正确 率 打分 

neighbors. KNeighborsClassifier. score(X, y, sample weight = None) 

这 是 用 来 评估 一 次 KNN 学 习 的 准确 率 的 方法 。 很 多 可 能 会 因为 样本 特征 的 选择 不 当 
或 者 人 值 的 选择 不 当 而 出 现 过 拟 合 或 者 偏差 过 大 的 问题 。 为 了 保证 训练 方法 的 准确 性 ,一 
般 我 们 会 将 已 经 带 有 分 类 标签 的 样本 数据 分 成 两 组 ,一 组 进行 学 习 , 一 组 进行 测试 。 这 个 
score() 就 是 在 学 习 之 后 进行 测试 的 功能 。 同 fit 〇 一 样 ,这 里 的 X 是 特征 坐标 ,y 是 样本 的 分 类 
标签 ; sample_weight 是 对 样本 的 加 权 , 长 度 等 于 sample 的 数量 。 返 回 的 是 正确 率 的 百分比 。 


3. 人工 生成 数据 KNN 分 类 例子 
除了 sklearn. neighbors ,还 需要 导入 NumPy 和 matplotlib 画图 。 


import random 

from sklearn import neighbors 

import NumPy as np 

import matplotlib. pyplot as plt 

from matplotlib. colors import ListedColormap 


我 们 随机 生成 6 组 200 个 的 正 态 分 布 : 


xl =np.random.normal(50, 6, 200) 


Y1 =np.random. normal(5, 0.5, 200) 
x2 = np.random.normal(30,6,200) 

Y2 = np.random. normal(4,0.5,200) 

x3 = np.random.normal(45,6,200) 

Y3 = np.random. normal(2.5, 0.5, 200) 


xl1、x2、x3 作为 x 坐标 ,yl、y2、y3 作为 y 坐标 ,两 两 配对 。(xl,y1) 标 为 1 类 , (x2,y2) 
标 为 2 类 ,(x3,y3) 是 3 类 。 将 它们 画 出 得 到 下 图 ,1 类 是 ( 蓝 色 ) 和 矩形 ,2 类 (红色 ) 三 角形 ， 
3 类 (绿色 ) 圆 形 。 

plt. scatter(xl,yl,c= 'b',marker = 's',s= 50,alpha= 0.8) 


plt. scatter(x2,y2,c= 'r', marker = ""', s= 50, alpha = 0.8) 
plt. scatter(x3,y3, c= 'g', s= 50, alpha= 0.8) 


得 到 如 图 11-11 所 示 的 图 形 。 


图 11-11 三 类 点 
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把 所 有 的 z 坐标 和 > 坐标 放 在 一 起 。 


X_Val 
yval 


求 出 x 值 的 最 大 差 和 y 值 的 最 大 差 。 


x_diff = 
Y_diff = max(y val) -min(Y_val) 


将 坐标 除 以 这 个 差 以 归 一 化 , 青 将 x 和 y 值 两 两 配对 。 


np. concatenate( (x1, x2, x3)) 
np. concatenate( (yl, y2, y3)) 


max(x val) 一 min(x_val) 


x_normalized 


Y_normalized 


[x/(x_diff) for x in x_vall] 
[y/(y_diff) for y in y vall] 

xy_normalized = zip(x_normalized,y_normalized) 

这 样 我 们 就 准备 好 了 训练 使 用 的 特征 数据 ,还 需要 生成 相应 的 分 类 标签 。 生 成 一 个 长 
度 600 的 list, 前 200 个 是 1, 中 间 200 个 是 2, 最 后 200 个 是 3, 对 应 三 种 标签 。 


labels = [1] *200+[2]*200+[3]*200 


然后 ,就 要 生成 sklearn 的 K 最 近邻 分 类 功能 了 。 参 数 中 ,n_neighbors 设 为 30, 其 他 的 
都 使 用 默认 值 即 可 。 


clf = neighbors.KNeighborsClassifier(30) 


(注意 : 我 们 是 从 sklearn 里 导入 了 neighbors。 如 果 是 直接 导入 了 sklearn, 应 该 输入 
sklearn. neighbors. KNeighborsClassifier( )) 
下 面 进行 拟 合 。 归 一 化 的 数据 是 xy_normalized ,分 类 标签 是 labels。 


bors.KNeighborsClassifier() 


就 这 么 简单 。 下 面 我 们 来 实现 一 些 功能 。 

(1) K 最 近邻 

首先 ,我 们 想 知 道 (50,5) 和 (30,3) 两 个 点 附近 最 近 的 5 个 样本 分 别 都 是 什么 。 注 意 , 坐 
标 别 忘 了 除 以 x_diff 和 y_diff 来 归 一 化 。 


nearests = clf.kneighbors([(50/x diff, 5/y_diff), (30/x_diff, 3/y_diff)], 5, False) 
nearests 


得 到 

array([[ 33, 64, 122, 52, 53],[200, 460, 505, 294, 490]]) 
也 就 是 说 训练 数据 中 的 第 33,64,122,52,53 个 离 (50,5) 最 近 , 第 200,460,505,294,490 个 
离 (30,3) 最 近 。 

(2) 预测 

还 是 上 面 那 两 个 点 ,我 们 通过 30NN 来 判断 它们 属于 什么 类 别 。 


prediction = clf.predict([(50/x diff, 5/y_diff), (30/x_diff, 3/y_diff)]) 
prediction 


得 到 
array([1, 2]) 


也 就 是 说 (50,5) 判 断 为 1 类 ,而 (30,3) 是 2 类 。 
(3) 概率 预测 
那么 这 两 个 点 的 分 类 的 概率 都 是 多 少 呢 ? 


prediction_proba = clf. predict proba([(50/x diff,5/y diff), (30/x_diff,3/y_diff)]) 
prediction proba 


得 到 
array([[ 1. 2 7 0. J), 
LD , 0.66666667, 0.33333333]]) 
这 个 结果 告诉 我 们 ,(50, 5) 有 100% 的 可 能 性 是 1 类 ,而 (30,3) 有 67% 是 2 类 ,33% 是 
3 类 。 
(4) 准确 率 打分 
我 们 再 用 同样 的 均值 和 标准 差生 成 一 些 正 态 分 布点 ,以 此 检测 预测 的 准确 性 。 
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xl_test = np. random. normal(50, 6, 100) 

yl_test = np. random. normal(5, 0.5, 100) 

x2_test = np. random. normal(30,6,100) 

Y2_test = np. random. normal(4,0.5,100) 

x3_test = np. random. normal(45,6,100) 

Y3_test = np. random.normal(2.5, 0.5, 100) 

xy_test_normalized = zip(np.concatenate( (xl1_test, x2_test, x3_test))/x_diff,\ 
np. concatenate( (yl_test, y2_test, y3_test))/y_diff) 

labels_test = [1]*100+[2]*100+[3]*100 


测试 数据 生成 完毕 ,下 面 进行 测试 。 

Score = clf. score(xy_ test_normalized, labels_test) 

Score 

0.96666666666666667 

可 见 我 们 得 到 预测 的 正确 率 是 97% ,还 是 很 不 错 的 。 

青 看 一 下 ,如 果 使 用 1NN 分 类 ,会 出 现 过 拟 合 的 现象 ,那么 准确 率 的 评分 就 变 为 : 

clfl = neighbors. KNeighborsClassifier(1) 

clf1.fit(xy_normalized, labels) 

clf1. score(xy_test normalized, labels test) 

0.95333333333333337 

我 们 得 到 95% 的 正确 率 ,的 确 是 降低 了 。 我 们 还 应 该 注意 ,这 里 的 预测 准确 率 很 高 是 
因为 训练 和 测试 的 数据 都 是 人 为 按照 正 态 分 布 生成 的 ,在 实际 使 用 的 很 多 场景 中 (比如 , 涨 
跌 预 测 ) 是 很 难 达 到 这 个 精度 的 。 
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(5) 生成 些 漂亮 的 图 

KNN 分 类 图 ,一 般 只 能 展示 两 个 维度 的 数据 ,超过 三 个 特征 就 画 不 出 来 了 。 

首先 我 们 需要 生成 一 个 区 域 里 大 量 的 坐标 点 。 这 要 用 到 np. meshgrid() 函 数 。 给 定 两 
个 array, 比 如 x 一 [1,2,3] 和 y 一 [4,5],np. meshgrid(x,y) 会 输出 两 个 矩阵 


|， 2 ,| 
1 2 3 
|: 4 | 
5 5 5 


这 两 个 全 加 到 一 起 得 到 6 个 坐标 : 
(CLs ‘(2,4) (BA 
Me (2,5) | 
就 是 以 [1,2,3] 为 模 轴 ,[4,5] 为 竖 轴 所 得 到 的 长 方形 区 间 内 的 所 有 坐标 点 。 我 们 现在 
要 生成 [1,80]X[1,7] 的 区 间 里 的 坐标 点 , 横 轴 要 每 0. 1 一 跳 , 竖 轴 每 0.01 一 跳 。 于 是 


Xxx,yy = np.meshgrid(np.arange(1,70.1,0.1), np.arange(1,7.01,0.01)) 


于 是 xx 和 yy 都 是 601X691 的 矩阵 。 还 有 ,不 要 忘 了 除 以 x_diff 和 y_diff 来 将 坐标 归 
一 化 。 


xx_normalized = xx/x_diff 
YY_normalized = yy/y_diff 


下 面 ,np. ndarray. ravel() 功 能 可 以 把 一 个 矩阵 捉 直 成 一 个 一 维 array, 把 


| 2 | 
和 


变 成 
[人 
np.c_() 又 把 两 个 array 粘 起 来 (类 似 于 zip) ,输入 
[V2 这 于 沁 人 
和 
[EE 二 本:9'5 沪 |] 
输出 
二 要 全 
kp 4 4 5 5 ,| 
或 者 理解 为 


{(1,4), (2,4), (3,4), (1,5), (2,5), (3,5)}{(1,4), (2,4), (3,4), (1,5), (2,5), (3,5)} 


于 是 


coords = np.c_[xx normalized.ravel(), yy_normalized. ravel()] 


得 到 一 个 array 的 坐标 。 下 面 就 可 以 进行 预测 : 
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Z = clf.predict(coords) @ 
Dd 
四 


当然 ,Z 是 一 个 一 维 array, 为 了 和 xx 还 有 yy 相对 应 ,要 把 Z 的 形状 再 转换 回 和 矩阵 。 


2 = Z.reshape(xx. shape) 


下 面 用 pcolormesh 画 出 背景 颜色 。 这 里 ,ListedColormap 是 自己 生成 colormap 的 功 
能 ,#rrggbb 颜色 的 rgb 代码 。pcolormesh 会 根据 Z 的 值 (1 ,2、3) 选 择 colormap 里 相对 应 
的 颜色 。 


light rgb = ListedColormap([ '#AAAAFF', '#FFAAAA', '# AAFFAA']) 
plt. pcolormesh(xx, yy,2Z, cmap= light rgb) 

plt. scatter(xl,yl,c= 'b',marker = 's',s = 50,alpha = 0.8) 

plt. scatter(x2,y2,c= 'r', marker = ""', s=50, alpha= 0.8) 

plt. scatter(x3,y3, c= 'g', s= 50, alpha= 0.8) 

plt.axis((10, 70,1,7)) 


得 到 如 图 11-12 所 示 的 图 形 。 
党 
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图 11-12 测试 图 
下 面 进行 概率 预测 ,使 用 


z_proba = clf.predict proba(coords) 


得 到 每 个 坐标 点 的 分 类 概率 值 。 假 设 我 们 想 画 出 红色 (三 角形 ) 的 概率 ,那么 提取 所 有 
坐标 的 2 类 概率 ,转换 成 蓝 色 和 矩阵 形状 。 


Z_proba_reds = z_proba[ :,1]. reshape(xx. shape) 
再 选 一 个 预 设 好 的 红色 调 cmap 画 出 来 


plt. pcolormesh(xx，YyY, Z_proba_reds，cmap = 'Reds ') 

plt. scatter(xl,yl,c= 'b',marker = 's',s = 50,alpha = 0.8) 
plt. scatter(x2,y2,c= 'r', marker = ""', s= 50, alpha = 0.8) 
plt. scatter(x3,y3, c= 'g', s= 50, alpha= 0.8) 
plt.axis((10, 70,1,7)) 


得 到 如 图 11-13 所 示 的 图 形 。 
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图 11-13 分 类 图 


scikit-learn 程序 包 的 功能 非常 齐全 ,使 用 KNN 分 类 进行 预测 也 简单 易 懂 。 使 用 的 难 
点 在 于 将 数据 整理 成 函数 可 以 处 理 的 格式 的 过 程 偏 于 烦琐 ,从 输出 中 读 取 结论 可 能 也 有 些 
麻烦 。 本 节 详 细 介绍 了 scikit-learn 程序 包 中 函数 的 输入 、 输 出 以 及 处 理 方法 ,希望 读者 可 
以 轻松 地 将 这 些 功能 运用 到 实际 应 用 中 。 


11.5.2 实际 数据 的 K 最 近邻 法 分 类 Python 应 用 


1. KNN 分 类 算法 


KNN 分 类 算法 (K-Nearest Neighbors Classification) ,又 叫 K 最 近邻 算法 ,是 一 个 概念 
极其 简单 ,而 分 类 效果 又 很 优秀 的 分 类 算法 。 其 核心 思想 就 是 ,要 确定 测试 样本 属于 哪 一 
类 ,就 寻找 所 有 训练 样本 中 与 该 测试 样本 “距离 ”最近 的 前 K 个 样本 ,然后 看 这 K 个 样本 大 
部 分 属于 哪 一 类 ,那么 就 认为 这 个 测试 样本 也 属于 哪 一 类 。 简 单 地 说 就 是 让 最 相似 的 K 个 
样本 来 投票 决定 。 这 里 所 说 的 距离 ,一般 最 常用 的 就 是 多 维 空间 的 欧式 距离 。 这 里 的 维度 
指 特 征 维度 , 即 样本 有 几 个 特征 就 属于 几 维 。 二 

KNN 示意 图 如 图 11-14 所 示 。 也 

在 图 11-14 中 ,我 们 要 确定 测试 样本 绿色 ( 圆 形 ) 属 于 蓝 色 ( 扼 
形 ) 还 是 红色 (三 角形 )。 显 然 , 当 开 =3 时 ,将 以 1: 2 的 投票 结果 分 四 : 


类 于 红色 ; 而 K=5 时 ,将 以 3 : 2 的 投票 结果 分 类 于 蓝 色 (矩形 ) 。 

KNN 算法 简单 有 效 , 但 没有 优化 的 暴力 法 效率 容易 达到 瓶 
颈 。 如 样本 个 数 为 N, 特 征 维度 为 DD 的 时 候 , 该 算法 时 间 复 杂 度 
呈 OCDN) 增 长 。 

所 以 通常 KNN 的 实现 会 把 训练 数据 构建 成 KD Tree(K-dimensional tree) ,构建 过 程 
很 快 ,甚至 不 用 计算 D 维 欧 氏 距离 ,而 搜索 速度 高 达 O(D x log(N))。 

不 过 当 D 维度 过 高 ,会 产生 所 谓 的 “维度 灾难 ”, 最 终 效 率 会 降低 到 与 暴力 法 一 样 。 因 
此 通常 D 二 20 以 后 ,最 好 使 用 更 高 效率 的 Ball-Tree, 其 时 间 复 杂 度 为 O(Dxlog(N))。 人 
们 经 过 长 期 的 实践 发 现 KNN 算法 虽然 简单 ,但 能 处 理 大 规模 的 数据 分 类 ,尤其 适用 于 样本 
分 类 边界 不 规则 的 情况 。 最 重要 的 是 该 算法 是 很 多 高 级 机 器 学 习 算 法 的 基础 。 

当然 ,KNN 算法 也 存在 一 些 问题 。 比 如 如 果 训 练 数据 大 部 分 都 属于 某 一 类 ,投票 算法 
就 有 很 大 问题 了 。 这 时 候 就 需要 考虑 设计 每 个 投票 者 的 权重 了 。 


图 11-14 KNN 示意 图 
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2. 数据 测试 文件 
先 在 G:\\2glkx\\data\\ 目 录 下 建立 数据 文件 11-1. txt, 测 试 数据 如 下 : 


1.5 40.0 thin 
1.5 50.0 fat 
1.5 60.0 fat 
1.6 40.0 thin 
1.6 50.0 thin 
1.6 60.0 fat 
1.6 70.0 fat 
1.7 50.0 thin 
1.7 60.0 thin 
1.7 70.0 fat 
1.7 80.0 fat 
1.8 60.0 thin 
1.8 70.0 thin 
1.8 80.0 fat 
1.8 90.0 fat 
1.9 80.0 thin 
1.9 90.0 fat 


3. Python 代码 
scikit-learn 提供 了 优秀 的 KNN 算法 支持 。 使 用 Python 代码 如 下 : 


import NumPy as np 
from sklearn import neighbors 
from sklearn. metrics import precision recall curve 
from sklearn. metrics import classification report 
from sklearn. cross_validation import train test_split 
import matplotlib. pyplot as plt 
## 数据 读 人 
data = [] 
labels = [] 
with open("G:\\2glkx\\data\\alll — 1.txt") as ifile: 
for line in ifile: 
tokens = line. strip().split('') 
data. append( [float(tk) for tk in tokens[ :~ 1]]) 
labels. append( tokens[ -1]) 
x = np.array(data) 
labels = np.array(labels) 
Y = np.zeros(labels. shape) 
## 标 签 转换 为 0/1'"' 
y[labels == 'fat'] =1 
## 拆 分 训练 数据 与 测试 数据 '"' 
x _ train, x test, y train, y test = train test split(x, y, test size = 0.2) 
## '"'"' 创建 网 格 以 方便 绘制 
| 二 
x min, x max = x[:, 0].min() — 0.1, x[:, 0].max() + 0.1 
ymin, y max = x[:, 1].min() - 1, x[:, 1].max() + 1 
xx, yy = np.meshgrid(np.arange(x min, x max, h), 
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np.arange(y_min, y_max, h)) 
## 训练 KNN 分 类 器 '”" 
clf = neighbors.KNeighborsClassifier(algorithm = 'kd tree') 
clf.fit(x train, y train) 
## 测试 结果 的 打印 '”' 
answer = clf.predict(x) 
print(x) 
print(answer) 
print(y) 
print(np.mean( answer == y)) 


得 到 如 下 结果 : 


5 
5 
5 
1.6 
1.6 
1.6 
1.6 
1.7 
Ly 
17 70: 
二 
1.8 
1.8 
1.8 
1.8 
9 
LE 
于 


| 和 有 0. 0. 1 1. o. 0. 1. 六 o. 0. 1. o. 

0.882352941176 

KNN 分 类 器 在 众多 分 类 算法 中 属于 最 简单 的 之 一 ,需要 注意 的 地 方 不 多 。 有 这 几 点 
需要 说 明 : 

(1) KNeighborsClassifier 可 以 设置 三 种 算法 : 'brute'、'kd_tree'、'ball_tree'。 如 果 不 知 
道 用 哪个 好 ,设置 'auto' 让 KNeighborsClassifier 自己 根据 输入 去 决定 。 

(2) 注意 统计 准确 率 时 ,分 类 器 的 score 返回 的 是 计算 正确 的 比例 ,而 不 是 R2。R2 一 
般 应 用 于 回归 问题 。 

(3) 本 例 先 根据 样本 中 身高 体重 的 最 大 最 小 值 ,生成 了 一 个 密集 网 格 ( 步 长 二 0. 01)， 
然后 将 网 格 中 的 每 一 个 点 都 当成 测试 样本 去 测试 。 

这 个 数据 集 达 到 准确 率 0. 882352941176 算是 很 优秀 的 结果 了 。 


练 习 题 


1. 对 本 章 例题 ,使 用 Python 重新 操作 一 遍 。 
2. 对 糖尿 病 数据 集 ,找到 最 优 的 正则 化 参数 alpha。 (0. 016249161908773888) 


时 间 序 列 数据 分 析 的 Python 应 用 


时 间 序 列 是 时 间 间 隔 不 变 的 情况 下 收集 的 时 间 点 集合 。 我 们 可 以 分 析 和 了 解 其 长 期 的 
发 展 趋势 。 但 时 间 序 列 分 析 与 常见 的 回归 问题 有 什么 不 同 呢 ? 有 两 个 原因 : (1) 时 间 序 列 
是 跟 时 间 有 关 的 。 所 以 基于 线性 回归 模型 的 假设 : 观察 结果 是 独立 的 在 这 种 情况 下 是 不 成 
立 的 。(2) 随 着 上 升 或 者 下 降 的 趋势 ,更 多 的 时 间 序 列 出 现 季节 性 趋势 的 形式 ,如 : 特定 时 
间 框 架 的 具体 变化 , 即 : 如 果 我 们 看 到 羊毛 外 衣 的 销售 上 升 ,就 一 定 会 在 冬季 做 更 多 销售 。 
正 因 为 时 间 序 列 的 固有 特性 ,有 各 种 不 同 的 方法 可 以 对 它 进 行 分 析 。Python 中 的 Pandas 
和 Statsmodels 有 专门 处 理 时 间 序 列 对 象 库 ,特别 是 可 以 存储 时 间 信 息 和 人 允许 人 们 执行 快 
速 合 作 的 datatime64(ns) 类 。 


12.1 时 间 序 列 分 析 的 ARIMA 建 模 


常用 的 时 间 序 列 分 析 模 型 有 AR 模型 .MA 模型 ARMA 模型 和 ARIMA 模型 等 。 


12.1.1 ”时 间 序 列 的 预 处 理 


得 到 一 个 观察 值 序列 后 ,首先 要 对 它 的 平稳 性 和 纯 随 机 性 进行 检验 ,这 两 个 重要 的 检验 
称 为 序列 的 预 处 理 。 根 据 检 验 的 结果 可 以 将 时 间 序 列 分 为 不 同 的 类 型 ,对 不 同类 型 的 序列 
要 采用 不 同 的 分 析 方法 。 

先 介绍 一 下 什么 是 平稳 ? 平稳 就 是 围绕 一 个 常数 上 下 波动 且 波 动 范围 有 限 , 即 : 有 常 
数 均 值 和 常数 方差 。 如 果 有 明显 的 趋势 或 周期 性 , 那 它 通常 不 是 平稳 序列 。 一 个 时 间 序 列 
是 否 平稳 ? 一 般 采 用 三 种 方法 检验 ， 


1. 时 间 序 列 图 检验 
如 图 12-1 所 示 ,可 见 具 有 很 明显 的 增长 趋势 ,不 平稳 。 
2. 自 相关 系数 和 偏 相关 系数 


还 以 上 面 的 图 12-1 所 示 的 时 间 序 列 为 例 , 其 自 相 关 和 偏 相 关 图 ,如 图 12-2 所 示 。 

从 图 12-2 中 可 见 ,左边 第 一 个 为 自 相 关 图 (Cautocorrelation) ,第 二 个 为 偏 相关 图 (partial 
correlation) 。 

平稳 的 序列 的 自 相 关 图 和 偏 相 关 图 要 么 是 拖 尾 ,要 么 是 截 尾 。 截 尾 就 是 在 某 阶 之 后 , 系 
数 都 为 0, 怎么 理解 呢 ? 看 图 12-2 中 的 偏 相 关 图 , 当 阶 数 为 1 的 时 候 , 系 数值 还 是 很 大 的 ,为 
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图 12-1 时 间 序 列 


Autocorrelation Partial Correlation AC PAC Q-Stat Prob 


1 0.914 0.914 32.647 0.000 
2 0.843 0.050 61.269 0.000 
3 0.767 -0.065 85.669 0.000 
4 0.695 -0.021 106.34 0.000 
5 0.609 -0.129 122.69 0.000 
6 0.544 0.065 136.18 0.000 
7 0.476 -0.034 146.88 0.000 
8 0.395 -0.139 154.52 0.000 
9 0.321 -0.019 159.74 0.000 
10 0.242 -0.094 162.82 0.000 
11 0.147 -0.166 163.99 0.000 
12 0.058 -0.038 164.18 0.000 
13 -0.033 -0.116 164.25 0.000 
14 -0.108 0.010 164.98 0.000 
15 -0.168 0.053 166.82 0.000 
16 -0.215 -0.015 169.99 0.000 
17 -0.260 -0.021 174.84 0.000 
18 -0.306 -0.083 181.98 0.000 
19 -0.346 -0.040 191.61 0.000 
20 -0.382 -0.010 204.08 0.000 


图 12-2 自 相关 和 偏 相 关 图 


0.914; 当 阶 数 为 2 的 时 候 突然 就 变 成 了 0.050。 后 面 的 值 都 很 小 ,认为 是 趋 于 0, 这 种 状况 
就 是 截 尾 。 什 么 是 拖 尾 ? 拖 尾 就 是 有 一 个 缓慢 衰减 的 趋势 ,但 是 不 都 为 0。 

自 相关 图 既 不 是 拖 尾 也 不 是 截 尾 。 图 12-2 的 自 相关 是 一 个 三 角 对 称 的 形式 ,这 种 趋势 
是 单调 趋势 的 典型 图 形 ,说 明 这 个 序列 不 是 平稳 序列 。 


3. 单位 根 检验 


单位 根 检验 是 指 检验 序列 中 是 否 存在 单位 根 。 如 果 存 在 单位 根 就 是 非 平稳 时 间 序 列 。 
那么 不 平稳 ,怎么 办 ? 

答案 就 是 差分 ,转换 为 平稳 序列 。 什 么 是 差分 ? 一 阶 差 分 指 原 序列 值 相距 一 期 的 两 个 
序列 值 之 间 的 减法 运算 ; & 阶 差分 就 是 相距 & 期 的 两 个 序列 值 之 间 相 减 。 如 果 一 个 时 间 序 
列 经 过 差分 运算 后 具有 平稳 性 , 则 该 序列 为 差分 平稳 序列 ,可 以 使 用 ARIMA 模型 进行 
分 析 。 

还 是 上 面 那个 序列 ,两 种 方法 都 说 明 该 序列 是 不 平稳 的 。 确 定 不 平稳 后 ,依次 进行 1 
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阶 、2 阶 ,3 阶 ……- 差分 ,直到 平稳 为 止 。 先 来 个 一 阶 差 分 ,如 图 12-3 所 示 。 @ 
60 © 
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图 12-3 差分 序列 


从 图 12-3 可 见 ,一 阶 差分 的 效果 不 错 , 看 来 是 平稳 的 。 

平稳 性 检验 过 后 ,下 一 步 是 纯 随 机 性 检验 。 

对 于 纯 随机 序列 ,又 称 白 噪声 序列 ,序列 的 各 项 数值 之 间 没 有 任何 相关 关系 ,序列 在 进行 
完全 无 序 的 随机 波动 ,可 以 终止 对 该 序列 的 分 析 。 白 噪声 序列 是 没有 信息 可 提取 的 平稳 序列 。 

对 于 平稳 非 白 品 声 序列 , 它 的 均值 和 方差 是 常数 。 通 常 是 建立 一 个 线性 模型 来 拟 合 该 
序列 , 借 此 提取 该 序列 的 有 用 信息 。ARMA 模型 是 最 常用 的 平稳 序列 拟 合 模型 。 


12.1.2 平稳 时 间 序 列 建 模 


某 个 时 间 序 列 经 过 预 处 理 ,被 判定 为 平稳 非 白 噪声 序列 ,就 可 以 进行 时 间 序 列 建 模 。 建 
模 步 骤 如 下 。 

(1) 计算 出 该 序列 的 自 相 关系 数 (ACF) 和 偏 相 关系 数 (PACF) 。 

(2) 模型 识别 ,也 称 模型 定 阶 。 根 据 系数 情况 从 AR(Cp) 模 型 \MA(q) 模 型 .ARMA(Pp,q) 
模型 .ARIMA(p,d,q) 模 型 中 选择 合适 模型 ,其 中 p 为 自 回归 项 ,d 为 差分 阶 数 ,q 为 移动 平 
均 项 数 。 平 稳 序列 的 模型 选择 如 表 12-1 所 示 。 


表 12-1 平稳 序列 的 模型 选择 


自 相关 系数 (ACF) 偏 相 关系 数 (PACF) 
拖 尾 Pp 阶 截 尾 
q 阶 截 尾 拖 尾 
Pp 阶 拖 尾 q 阶 拖 尾 


ARIMA 是 ARMA 算法 的 扩展 版 ,用 法 类 似 。 

(3) 估计 模型 中 的 未 知 参 数 的 值 并 对 参数 进行 检验 ; 
(4) 模型 检验 ; 

(5) 模型 优化 ; 

(6) 模型 应 用 : 进行 短期 预测 。 
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。 12.2 ARIMA 模型 时 间 序列 分 析 的 Python-Statsmodels 应 用 


准备 基础 程序 包 : Pandas,NumPy,Scipy,Matplotlib ,Statsmodels。 命 令 如 下 : 


from _future_ ”import print function 
import Pandas as pd 

import NumPY as np 

from SciPYy import stats 

import matplotlib. pyplot as plt 

import statsmodels.api as sm 

from statsmodels. graphics. api import qqplot 


12.2.1 准备 数据 


dta = [10930, 10318, 10595, 10972, 7706, 6756, 9092, 10551, 9722, 10913, 11151, 8186, 6422, 6337, 
11649, 11652, 10310, 12043, 7937,6476, 9662, 9570, 9981, 9331, 9449, 6773, 6304, 9355, 10477, 10148, 
10395, 11261,8713,7299,10424,10795, 11069, 11602, 11427, 9095,7707, 10767, 12136,12812,12006, 
12528, 10329, 7818, 11719, 11683, 12603, 11495, 13670, 11337, 10232, 13261, 13230, 15535, 16837, 
19598, 14823, 11622, 19391, 18177, 19994, 14723, 15694, 13248, 9543, 12872, 13101, 15053, 12619, 
13749, 10228, 9725, 14729, 12518, 14564, 15085, 14722, 11999, 9390, 13481, 14795, 15845, 15271, 
14686, 11054, 10395] 

dta= np.array(dta, dtype = np. float) ## 把 矩阵 变 为 数组 

dta= pd. Series(dta) 

dta. index = pd. Index(sm.tsa. datetools. dates_from range('2001', '2090')) 

dta. plot (figsize = (12,8)) 


得 到 如 图 12-4 所 示 的 图 形 。 
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12.2.2 差分 时 间 序 列 


ARIMA 模型 对 时 间 序 列 的 要 求 是 平稳 型 。 因 此 , 当 我 们 得 到 一 个 非 平稳 的 时 间 序 列 
时 ,首先 要 做 的 是 对 时 间 序 列 进行 差分 ,直到 得 到 一 个 平稳 时 间 序 列 。 如 果 我 们 对 时 间 序 列 
做 d 次 差分 才能 得 到 一 个 平稳 序列 ,那么 可 以 使 用 ARIMA(p,d,q) 模 型 ,其 中 d 是 差分 次 
数 。 下 面 我 们 进行 一 次 差分 。 


fig = plt.figure(figsize= (12,8)) 
axl = fig.add subplot(111) 

diffl = dta.diff(1) 
diff1l.plot(ax=axl) 


得 到 如 图 12-5 所 示 的 图 形 。 
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进行 二 次 差分 : 

fig = plt.figure(figsize= (12,8)) 

axl = fig.add subplot(111) 

diff2 = dta.diff(2) 

diff2.plot(ax= axl) 


得 到 如 图 12-6 所 示 的 图 形 。 


从 图 12-5、12-6 中 可 以 看 到 ,二 次 差分 的 序列 效果 与 一 次 差分 后 序列 差不多 ,因此 用 一 
次 差分 后 的 序列 。 


12.2.3 选择 合适 的 p,q 
现在 我 们 已 经 得 到 了 一 个 平稳 的 时 间 序 列 (一 次 差分 后 的 数据 序列 ) , 接 来 下 就 是 选择 
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合适 的 ARIMA 模型 , 即 ARIMA 模型 中 合适 的 p,q。 
1. 第 一 步 ,我 们 要 先 检 查 平稳 时 间 序 列 的 自 相 关 图 和 偏 自 相关 图 


diffl = dta.diff(1) 井 使 用 一 阶 差分 的 时 间 序 列 数据 

fig = plt.figure(figsize= (12,8)) 

axl = fig.add_subplot(211) 

fig = sm.graphics. tsa. plot_acf(dta, lags = 40,ax=axl) 

ax2 = fig.add _ subplot(212) 

fig = sm.graphics. tsa. plot_pacf(dta, lags = 40,ax = ax2) 

其 中 lags 表示 滞后 的 阶 数 , 以 上 分 别 得 到 如 图 12-7 所 示 的 图 形 。 

通过 观察 图 12-6 和 图 12-7 ,可 以 得 到 : 

(1) 自 相 关 图 显示 滞后 有 三 个 阶 超出 了 置信 边界 ; 

(2) 偏 相 关 图 显示 在 滞后 1 至 7 阶 (lags 1,2,…,7) 时 的 偏 自 相关 系数 超出 了 置信 边 
界 , 从 lag 7 之 后 偏 自 相 关系 数值 缩小 至 0。 


2. 模型 选择 


根据 图 12-6 和 图 12-7 ,猜测 有 以 下 模型 可 供 选 择 。 

(1) ARMA(0,1) 模 型 : 即 自 相关 图 在 滞后 1 阶 之 后 缩小 为 0, 且 偏 自 相 关 缩 小 至 0, 则 
是 一 个 阶 数 q=1 的 移动 平均 模型 ; 

(2) ARMA(7,0) 模 型 : 即 偏 自 相关 图 在 滞后 7 阶 之 后 缩小 为 0, 且 自 相 关 缩 小 至 0, 则 
是 一 个 阶层 p=7 的 自 回归 模型 ; 

(3) ARMA(7,1) 模 型 : 即使 得 自 相 关 和 偏 自 相关 都 缩小 至 零 。 则 是 一 个 混合 模型 。 
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(4) 还 可 以 有 其 他 供 选择 的 模型 (实际 上 选 了 ARMA(8,0))。 

现在 有 以 上 这 么 多 可 供 选择 的 模型 ,我 们 通常 采用 ARMA 模型 的 赤 池 信息 准则 
(AIC) 。 我 们 知道 : 增加 自由 参数 的 数目 提高 了 拟 合 的 优良 性 ,AIC 鼓励 数据 拟 合 的 优良 
性 但 是 尽量 避免 出 现 过 度 拟 合 (overfitting) 的 情况 。 所 以 优先 考虑 的 模型 应 是 AIC 值 最 小 
的 那 一 个 。 赤 池 信 息 准 则 的 方法 是 寻找 可 以 最 好 地 解释 数据 但 包含 最 少 自由 参数 的 模型 。 
不 仅 包括 AIC 准则 ,目前 选择 模型 通常 有 如 下 准则 : 

@ AIC= 一 2 ln(L) 十 2 k 中 文 名 字 : 赤 池 信息 量 akaike information criterion; 

@ BIC= 一 2 In(L) 十 InCn) * k 中 文 名 字 : 贝 叶 斯 信息 量 bayesian information ctriterion; 

©@ HQ=—2 ln(L) + ln(lnCn)) * k hannan-quinn criterion 。 

构造 这 些 统计 量 所 遵循 的 统计 思想 是 一 致 的 ,就 是 在 考虑 拟 合 残 差 的 同时 ,根据 自 变量 
个 数 加 以 “惩罚 "。 但 要 注意 的 是 ,这 些 准 则 不 能 说 明 某 一 个 模型 的 精确 度 ,也 就 是 说 ,对 于 
三 个 模型 A、B、C, 我 们 能 够 判断 出 C 模型 是 最 好 的 ,但 不 能 保证 C 模型 能 够 很 好 地 刻画 数 
据 , 因 为 有 可 能 三 个 模型 都 是 糟糕 的 。 


arma mod70 = sm.tsa.ARMA(dta, (7,0)).fit() 
print(arma mod70.aic,arma mod70.bic,arma mod70. hqic) 
arma mod01 = sm.tsa.ARMA(dta, (0,1)).fit() 
print(arma mod10.aic,arma mod30. bic,arma mod30. hqic) 
arma mod71 = sm.tsa.ARMA(dta, (7,1)).fit() 
print(arma mod71.aic,arma mod71.bic,arma mod71.hqic) 
arma mod80 = sm.tsa.ARMA(dta, (8,0)).fit() 
Print(arma mod80.aic,arma mod80.bic,arma mod80. hqic) 


ao 经 济 金融 数据 分 析 及 其 Python 应 用 


1619.19181153 1641. 69009856 1628. 26444334 
1657.21726267 1664. 71669168 1660.24147327 
1605.68656481 1630. 68466152 1615.76726682 
1597.93600985 1622.93410655 1608. 01671185 


这 样 的 话 应 该 是 ARMA(8,0) 模 型 拟 合 效 果 最 好 。 
3. 检验 残 差 序列 


resid = arma mod80. resid 
fig = plt.figure(figsize= (12,8)) 


axl = fig.add subplot(211) 

fig = sm.graphics. tsa.plot_acf(resid. values. squeeze(), lags = 40, ax = axl) 
ax2 = fig.add subplot(212) 

fig = sm.graphics. tsa. plot_ pacf(resid, lags= 40, ax = ax2) 


得 到 如 图 12-8 所 示 的 图 形 。 
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图 12-8 ARMA(8,0) 自 相关 图 和 偏 自 相关 图 


从 图 12-8 中 ,可 以 看 到 序列 残 差 基本 为 白 噪声 

进一步 进行 德 宾 - 沃 森 (Durbin-Watson) 检 验 。 德 宾 - 沃 森 检验 ,简称 DW 检验 ,是 目前 
检验 自 相关 性 最 常用 的 方法 ,但 它 只 适用 于 检验 一 阶 自 相关 性 。 因 为 自 相 关系 数 6 的 值 介 
于 一 1 和 1 之 间 , 所 以 0<DW<4。 并 且 DW 二 OX6=1 即 存在 正 自 相关 性 ; DW 王 4Xp 一 
一 1 即 存在 负 自 相关 性 ; DW 二 2Xp 二 0 即 不 存在 (一 阶 ) 自 相关 性 。 因 此 , 当 DW 值 显著 地 
接近 于 0 或 4 时 , 则 存在 自 相关 性 ; 而 接近 于 2 时 , 则 不 存在 (一 阶 ) 自 相关 性 。 这 样 只 要 知 
道 DW 统计 量 的 概率 分 布 ,在 给 定 的 显著 水 平 下 ,根据 临界 值 的 位 置 就 可 以 对 原 假设 媚 , 进 
行 检验 。 
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print(sm. stats. durbin watson(arma mod80. resid. values)) 
2.02277213502 


结果 二 2.02277213502, 所 以 残 差 序列 不 存在 自 相关 性 。 

4. 观察 是 否 符合 正 态 分 布 

这 里 使 用 QQ 图 , 它 用 于 直观 验证 一 组 数据 是 否 来 自 某 个 分 布 ,或 者 验证 某 两 组 数据 是 
否 来 自 同一 ( 族 ) 分 布 。 


print(stats. normaltest(resid)) 

fig = plt.figure(figsize= (12,8)) 

ax = fig.add subplot(111) 

fig = qqplot(resid, line= 'gq', ax= ax fit= True) 


得 到 如 图 12-9 所 示 的 图 形 。 
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图 12-9 正 态 分 布 检验 
从 图 12-9 可 见 ,基本 符合 正 态 分 布 。 
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5. 残 差 序列 Ljung-Box 检验 (Q 检验 ) 


r,qrp = sm.tsa.acf(resid.values. squeeze(), qstat = True) 

data = np.c_[range(1,41), r[1:], q, p] 

table = pd.DataFrame(data, columns = ['lag', "AC", "Q", "Prob(>0)"]) 
print(table. set_index( 'lag')) 


得 到 如 下 结果 : 
aC Q Prob(>0) 
lag 
1.0 -0.014468 0.019475 0.889013 
2.0 一 0.045573 0.214888 0.898127 
3.0 0.101607 1.197454 0.753615 
4.0 0.063476 1.585377 0.811418 
5.0 0.176140 4.607596 0.465618 
6.0 0.005123 4.610182 0.594689 
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7.0 -0.208965 8.966309 
8.0 0.115859 10.321747 


.255084 
.243166 


0 
0 
9.0 0.020846 10.366170 0.321663 
10.0 -0.220057 15.378186 0.118870 
11.0 -0.050613 15.646675 0.154763 
12.0 -0.031538 15.752259 0.202848 
13.0 -0.055134 16.079128 0.244883 
14.0 0.195246 20.232322 0.122985 
15.0 —0.204286 24.839599 0.052139 
16.0 0.034589 24.973464 0.070295 
17.0 0.181380 28.704982 0.037345 
18.0 -0.043261 28.920203 0.049363 
19.0 -0.045300 29.159517 0.063517 
20.0 0.044260 29.391235 0.080337 
21.0 0.142092 31.814067 0.061136 
22.0 0.118281 33.517592 0.054955 
23.0 0.004485 33.520077 0.072423 
24.0 -0.133530 35.756960 0.057939 
25.0 0.061820 36.243786 0.067981 
26.0 -0.021852 36.305567 0.086191 
27.0 0.047349 36.600216 0.102775 
28.0 0.131287 38.902103 0.082510 
29.0 -0.080830 39.788943 0.087447 
30.0 -0.026237 39.883938 0.107132 
31.0 0.011392 39.902152 0.131262 
32.0 -0.015232 39.935275 0.158191 
33.0 -0.042672 40.199784 0.181490 
34.0 0.006094 40.205275 0.214516 
35.0 -0.015923 40.243444 0.249286 
36.0 0.000432 40.243473 0.287867 
37.0 -0.083854 41.341975 0.286677 
38.0 -0.091988 42.689361 0.276570 
39.0 0.002412 42.690305 0.315490 
40.0 -0.071636 43.540115 0.323196 
从 上 可 见 ,prob 值 均 大 于 0.05, 所 以 残 差 序列 不 存在 自 相关 性 。 
12.2.4 预测 


predict dta = arma mod80.predict('2090', '2100', dynamic = True) 

print(predict_dta) 

fig, ax = plt. subplots(figsize= (12, 8)) 

ax = dta. ix['2000':].plot(ax= ax) 

fig = arma mod80.plot predict('2090', '2100', dynamic = True，ax = ax, plot insample = False) 


得 到 如 下 结果 : 


2090 一 12 一 31 9543.342785 
2091 一 12 一 31 12908.557524 
2092 一 12 一 31 13981. 006838 
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2093=12=31 14501.081732 
2094—12-31 13893.733284 
2095=12=31 13249. 430373 
2096 一 12-31 10961.736141 
2097-12-31 10074.458409 
2098 一 12 一 31 12685. 025109 
2099=12=31 13476. 428895 
2100-12-31 13615.435265 
Freq: A— DEC, dtype: float64 


得 到 如 图 12-10 所 示 的 图 形 。 
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图 12-10 预测 图 


12.3 时 间 序 列 数 据 分 析 ARIMA 模型 的 Python 应 用 


下 面 以 某 店 铺 2016/1/1 一 2016/2/5 的 销售 数据 为 例 , 以 此 来 建 模 预 测 2016/2/6 一 
2016/2/10 的 销售 数据 ,数据 如 表 12-2 所 示 。 


表 12-2 销售 数据 


日 期 销量 日 期 销量 
2016/1/1 3023 2016/1/19 3421 
2016/1/2 3039 2016/1/20 3443 
2016/1/3 3056 2016/1/21 3428 


2016/1/4 3138 2016/1/22 3554 
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日 期 销量 日 期 销量 
2016/1/5 3188 2016/1/23 3555 
2016/1/6 3224 2016/1/24 3556 
2016/1/7 3226 2016/1/25 3557 
2016/1/8 3029 2016/1/26 3553 
2016/1/9 2859 2016/1/27 3559 
2016/1/10 2870 2016/1/28 3630 
2016/1/11 2910 2016/1/29 3700 
2016/1/12 3012 2016/1/30 3800 
2016/1/13 3142 2016/1/31 3900 
2016/1/14 3252 2016/2/1 4000 
2016/1/15 3342 2016/2/2 4200 
2016/1/16 3365 2016/2/3 4400 
2016/1/17 3339 2016/2/4 4600 
2016/1/18 3345 2016/2/5 4800 

#arima 时 间 序 列 分 析 模 型 
import Pandas as pd 
# 参 数 初始 化 


discfile = 'G:/2glkx/data/all2— 2.xls' 
forecastnum = 5 


# 读 取 数据 ,指定 日 期 列 为 指标 , Pandas 自动 将 "日 期 " 列 识别 为 Datetime 格式 
data = pd. read excel(discfile, index col = u'date') 


# 时 序 图 
import matplotlib. pyplot as plt 
# 用 来 正常 显示 中 文 标签 
plt. rcParams[ 'font. sans - serif'] = ['SimHei'] 
# 用 来 正常 显示 负 号 
plt. rcParams[ 'axes. unicode minus'] = False 
data. plot() 
plt. show( ) 
得 到 如 图 12-11 所 示 的 图 形 。 
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12-11 销量 数据 


# 自 相 关 图 
from statsmodels. graphics. tsaplots import plot acf 


plot acf(data). show() 


得 到 如 图 12-12 所 示 的 图 形 。 
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图 12-12 自 相关 图 


# 平 稳 性 检测 
from statsmodels. tsa. stattools import adfuller as ADF 
print(u'result:', ADF(data[u'sale'])) 


# 返 回 值 依次 为 adf ,pvalue、usedlag .nobs、critical values \icbest ,regresults、resstore 
(u'result:', (1.0533790403327086, 0.99479841693347348, 1, 34, {'5%': -2.9512301791166293, 
'1%': -3.639224104416853, '10%': —2.6144469896193772}, 272.13072719088905)) 


整理 上 述 结果 ,如 表 12-3 所 示 。 
表 12-3 ADF 结 果 


原始 序列 的 单位 根 (adf) 检 验 
adf cValue Zp 值 
1% 5% 10% 
1.053379 一 3.6392 一 2.9512 一 2.6144 0.99480 


从 表 12-3 中 可 见 ,p 值 大 于 3 个 关键 值 ,p 值 显著 大 于 0. 05 ,该 序列 为 非 平 稳 序 列 。 


# 差分 后 的 结果 

D data = data. diff().dropna() 
D data. columns = [u'chafen'] 
# 时 序 图 

D_data.plot() 

plt. show( ) 


得 到 如 图 12-13 所 示 的 图 形 。 


# 自 相关 图 
plot acf(D data). show() 
plt. show( ) 


得 到 如 图 12-14 所 示 的 自 相 关 图 形 。 
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图 12-13 差分 后 序列 
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图 12-14 自 相关 图 


from statsmodels. graphics. tsaplots import plot_pacf 
# 偏 自 相 关 图 
plot_pacf(D data). show() 


得 到 如 图 12-15 所 示 的 偏 相关 图 形 。 
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图 12-15 偏 相关 图 


#ADE 平稳 性 检测 
print(u'result:', ADF(D data[u'chafen'])) 
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(u'result:', (—2.0689698606420945, 0.25717359151753916, 0, 34, {'5%': 一 2.9512301791166293，" 
1%': —3.639224104416853, '10%': —2.6144469896193772}, 260.91255011693556)) 


整理 结果 如 表 12-4 所 示 。 


表 12-4 ADF 结 果 


原始 序列 的 单位 根 (adf) 检 验 
adf cValue p 值 
1% 5% 10% 
一 2.0690 一 3.6392 一 2.9512 一 2.6145 0. 2572 
pp 值 显著 大 于 0. 05 ,一 阶 差分 序列 为 非 平稳 序列 。 
# 差分 后 的 结果 
DD data = D data.diff().dropna() 
DD data. columns = [u'cf'] 
print(u'result:', ADF(DD data[u'cf'])) 
(u'result:', (— 5. 7919083675757923，4. 8502514924723576e - 07, 0, 33, {'5% ': — 2.954126991123355, 
'1%': —3,6461350877925254, '10%': -2.6159676124885216}, 251.34579174861824)) 
整理 结果 如 表 12-5 所 示 。 
表 12-5 ADF 结 果 
原始 序列 的 单位 根 (adf) 检 验 
adf cValue pp 值 
1% 5% 10% 
一 5.7919 一 3.6461 一 2. 9541 一 2. 6160 0. 0000 


pp 值 显著 小 于 0. 05, 二 阶 差 分 序列 为 平稳 序列 。 


# 白 噪声 检验 

from statsmodels. stats. diagnostic import acorr_1jungbox 

# 返 回 统计 量 和 p 值 
print(u'result:'，acorr_1jungbox(DD_data，lags=1)) 
(u'result:', (array([ 0.05777836]), array([ 0.81004242]))) 


二 阶 差 分 后 序列 的 白 噪 声 检 验 
stat p 值 
0.81 0.057 


力 值 小 于 0.10, 所 以 二 阶 差分 后 的 序列 为 平稳 非 白 噪声 序列 。 


from statsmodels. tsa. arima model import ARIMA 
# 定 阶 

# 一 般 阶 数 不 超 过 length/10 

pmax = int(len(DD data)/10) 

# 一 般 阶 数 不 超过 length/10 

qmax = int(len(D data)/10) 

#bic 和 矩阵 


bic matrix = [] 
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for p in range(pmax + 1): 
tmp = [] 
for q in range( gmax + 1): 
# 存 在 部 分 报错 ,所 以 用 try 来 跳 过 报错 。 
try: 
tmp. append(ARIMA(D data, (p,1,q)).fit().bic) 
except: 
tmp. append(None) 
bic_matrix.append(tmp) 
# 从 中 可 以 找 出 最 小 值 
bic matrix = pd.DataFrame(bic matrix) 
# 先 用 stack 展 平 ,然后 用 idxmin 找 出 最 小 值 位 置 。 
p,q = bic matrix. stack(). idxmin() 
print(u'BICminp&q: %s.%s' % (p,q)) 


取 BIC 信息 量 达 到 最 小 的 模型 阶 数 , 结 果 p 为 0,g 为 1, 定 阶 完成 。 


# 建 立 ARIMA(0, 1, 1) 模 型 

model = ARIMA(D data, (0,1,1)).fit() 
# 给 出 一 份 模型 报告 

model. summary2() 


得 到 如 下 结果 : 


Results: ARIMA 


Model: ARIMA Log - Likelihood: -191,18 
Dependent Variable: D. cf Scale: 1.0000 
Date: 2016—10-01 14:59 Method: css 一 mle 
No. Observations: 34 Sample: 01-03-2016 
Df Model: 2 02-05-2016 
Df Residuals: 32 S.D. of innovations: 66.953 
AIC: 388.3632 HQIC: 389.925 
BIC: 392.9423 
Coef Std. Err. 3 P>|tl| [0.025 0.975] 
const 5.4243 10.7605 0.5041 0.6176 -15.6659 26.5145 
ma. Ll.D. cf 一 0.0648 0.2182 —0.2969 0.7684 -0.4924 0.3628 


# 作为 期 5 天 的 预测 ,返回 预测 结果 、 标 准 误差 置信 区 间 。 
model. forecast(5) 


最 终 模型 D_data 预测 值 如 下 : 


(array([ 205.7982486 , 211.22255025, 216.64685189, 222.07115354, 
227.49545519]), 
array([ 66.95282074, 91.67016965, 111.01423242, 127.45548085, 
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142. 00577241])， 
array([[ 74.57313128, 337.02336592], 
[ 31.55231928, 390.89278121], 
[ —0.93704543, 434.23074922], 
[ - 27.73699856, 471.87930564], 
[ - 50.83074433, 505.8216547 ]])) 


因此 , 原 时 间 序 列 的 预测 值 如 下 : 


2016/2/6 2016/2/7 2016/2/8 2016/2/9 2016/2/9 


练 习 题 


对 本 章 的 数据 ,使 用 Python 重新 操作 一 遍 。 


量化 金融 数据 分 析 的 Python 应 用 


本 章 将 介绍 7 个 量化 金融 的 实例 ,它们 包括 : (1) 战 胜 股票 市 场 策略 可 视 化 的 Python 
应 用 ; (2) 股 票数 据 正 态 性 检验 的 Python 应 用 ; (3) 标 准 均值 方差 模型 及 其 Python 应 用 ; 
(4) 投 资 组 合 有 效 边 界 的 Python 绘制 ; (5)Markowitz 投资 组 合 优化 的 Python 应 用 ; (6) 蒙 
特 卡 罗 模 拟 股票 期 权 定价 的 Python 应 用 ; (7) 蒙 特 卡 罗 模 拟 期 权 价 格 稳定 性 的 Python 
应 用 。 


13.1 战胜 股票 市 场 策略 可 视 化 的 Python 应 用 
13.1.1 使 用 Pandas 导入 数据 


import Pandas. io. data as web 

from Pandas import DataFrame 

data feed = {} 

data feed[1] = web.get_data yahoo( 'AAPL', '05/1/2016', '10/1/2016') 

data feed[2] = web.get data yahoo('FB', '05/1/2016', '10/1/2016') 

data_feed[3] = web.get_data_ yahoo('GO0G', '05/1/2016', '10/1/2016') 

data feed[4] = web.get data yahoo('SPLK', '05/1/2016', '10/1/2016') 

data feed[5] = web.get_ data yahoo('YELP', '05/1/2016', '10/1/2016') 

data feed[6] = web.get data yahoo('GG', '05/1/2016', '10/1/2016') 

data feed[7] = web.get data yahoo('BP', '05/1/2016', '10/1/2016') 

data_feed[8] = web.get_data yahoo('SCPJ', '05/1/2016', '10/1/2016') 

data feed[9] = web.get data yahoo('JNJ', '05/1/2016', '10/1/2016') 

price = DataFrame({tic: data[ 'Adj Close'] for tic, data in data feed. iteritems()}) 
volume = DataFrame( {tic: data[ 'Volume'] for tic, data in data feed. iteritems()}) 


13.1.2 收益 率 


要 确定 收益 率 百 分 比 并 进行 分 析 , 可 以 调用 return DataFrame 方法 和 Plot 方法 。 这 可 
以 通过 调用 sum 对 DataFrame 中 的 各 列 求 和 来 实现 ,该 函数 执行 了 大 量 工作 来 创建 图 13-1 
所 示 的 图 表 。 


returns = price.pct change() 

import matplotlib. pyplot as plt 

returns. sum().plot(kind= 'bar',title="% return for Year") 
plt. show() 
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最 后 得 到 如 图 13-1 所 示 的 图 形 。 
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图 13-1 收益 率直 方 图 


如 图 13-1 所 示 ,SCPJ 进行 了 IPO. 并 且 年 初 至 今 它 的 损失 接近 IPO 值 的 40%。 相 比 
之 下 ,YELP( 在 同一 个 行业 中 ) 获 利 几 乎 为 80%。 事 后 看 来 , 卖 空 SCPJ 而 买 进 Yelp 几乎 可 
以 让 原始 投资 翻 倍 。 


13.1.3 原始 输出 总 和 
sum() 命 令 的 文本 输出 在 该 代码 中 展示 了 年 收益 的 实际 原始 值 


In [12]: returns. sum() 

Out[15]: 

.209309 
0.084193 
0.112291 
0.137510 
0.721123 

一 你 
0. 

=-0. 


口 


124810 
095181 
302034 
.062589 
dtype: float64 


13.1.4 创建 一 幅 日 收益 率 柱状 图 


考虑 数据 的 另 一 个 方法 是 创建 全 年 日 收益 率 变 化 的 柱状 图 ,了 解 这 是 否 反映 了 数据 的 
底层 洞察 。 这 非常 简单 ,代码 如 下 : 


returns. diff().hist() 
plt. show() 


得 到 输出 结果 如 下 ,图 形 如 图 13-2 所 示 。 


omwaouwewnb 


口 


Out[16] : 

array([[< matplotlib. axes._subplots. AxesSubplot object at 0x0B7FE1D0 >, 
< matplotlib. axes._subplots. AxesSubplot object at 0x0B9697B0 >, 
< matplotlib. axes._subplots. AxesSubplot object at 0x0BB18210 >], 
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® [< matplotlib.axes._subplots. AxesSubplot object at 0x0BB4D1F0 >, 
<matplotlib. axes._subplots. AxesSubplot object at 0x0BB89B70 >, 
< matplotlib. axes._subplots. AxesSubplot object at 0x0BC3C750 >], 
[<matplotlib. axes._subplots. AxesSubplot object at 0x0BC8COF0 >, 
<matplotlib. axes._subplots. AxesSubplot object at 0x0BCD5770 >, 
<matplotlib. axes._subplots. AxesSubplot object at 0x0BD8FD50 >]], dtype = object) 
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13.1.5 Pandas 投资 组 合 相 关 性 的 年 度 线性 图 


另 一 个 查看 数据 的 方法 是 记 下 日 收益 率 并 绘制 年 度 线 性 图 。 下 面 的 代码 展示 了 如 何 
操作 : 


returns. plot(title="% Daily Change for Year") 
plt. show() 


得 到 如 图 13-3 所 示 的 图 形 。 


13.1.6 各 资产 收益 率 的 累积 和 


这 种 简单 图 表 的 问题 是 不 太 容易 理解 图 中 的 信息 。 处 理 时 间 序 列 数据 的 方法 是 使 用 
cumsum 函数 ,将 数据 绘 成 图 表 : 
ts = returns.cumsum() 


plt. figure(); ts.plot(); plt. legend(loc = 'upper left') 
plt. show( ) 
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图 13-3 ”投资 组 合 相 关 性 的 年 度 线性 图 
得 到 如 图 13-4 所 示 的 图 形 。 


图 13-4 各 资产 收益 率 的 累积 和 


图 13-4 所 示 的 结果 告诉 了 我 们 关于 投资 组 合 的 更 多 信息 。 通 过 进行 时 间 序 列 分 析 并 
绘制 结果 图 标 ,SCPJ 显然 面临 着 比 原来 想象 的 更 加 困难 的 时 刻 ,年 收益 下 降 了 近 40% ,9 月 
甚至 一 度 下 降 了 40%。 有 关 股 票 走势 的 其 他 数据 表明 ,SCPJ 的 标准 偏差 相当 高 。 因 为 标 
准 偏差 是 风险 的 大 致 表现 ,所 以 ,在 制订 该 组 合并 确定 权重 时 ,应 重点 关注 这 个 地 方 。 


13.1.7 Pandas 组 合 相 关 性 的 百分比 变化 
确定 九 种 股票 间 百分比 变化 的 相关 性 与 调用 DataFrame 收益 corr 的 方法 一 样 简单 : 


returns. corr() 


Out[21] : 
1 2 3 4 5 6 Yh 

1 1.000000 0.416977 0.441595 0.359194 0.117748 0.076796 0.201243 
2 0.416977 1.000000 0.615684 0.431009 0.379273 0.061064 0.336605 
3 0.441595 0.615684 1.000000 0.441726 0.373359 0.068465 0.351125 
4 0.359194 0.431009 0.441726 1.000000 0.274183 0.007723 0.460048 
5 0.117748 0.379273 0.373359 0.274183 1.000000 0.194522 0.222843 
6 0.076796 0.061064 0.068465 0.007723 0.194522 1.000000 0.203828 
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7 0.201243 0.336605 0.351125 0.460048 0.222843 0.203828 1.000000 
0.089218 0.077398 0.082808 0.081331 0.182187 0.175279 0.071175 


9 0.261049 0.440014 0.534019 0.265154 0.199166 0.151390 0.332621 
8 9 
1 0.089218 0.261049 
2 0.077398 0.440014 
3 0.082808 0.534019 
4 0.081331 0.265154 
5 0.182187 0.199166 
6 0.175279 0.151390 
7 0.071175 0.332621 
8 1.000000 0.144818 
9 0.144818 1.000000 


13.1.8 SPY 标准 普尔 500 指数 的 累积 收益 率 图 


在 下 面 的 标准 普尔 500 的 实例 中 ,创建 了 另 一 个 DataFrame, 在 同一 时 间 周 期 内 , 它 可 
以 充当 “市 场 投资 组 合 "。 在 图 13-5 中 的 图 表 展 示 了 SPY 生成 的 收益 率 ,SPY 是 标准 普尔 
500 指数 的 代理 。 


market data feed = {} 
market data feed[1] = web.get data yahoo('SPY', '05/1/2016', '10/1/2016') 
market_symbols = ['SPY'] 
for ticker in market symbols: 

market_data feed[ticker] = web.get data yahoo (ticker, '05/1/2016', '10/1/2016') 
market_price = DataFrame({tic: data[ 'Adj Close'] for tic, data in market data feed. iteritems()}) 
market volume = DataFrame({tic: data[ 'Volume']for tic, data in market data feed. iteritems()}) 


# 收盘 价 转 为 收益 率 
market_returns = market_price. pct_change() 
# 累积 收益 率 


market_returns. cumsum( ) 

mts = market returns. cumsum() 

plt. figure(); mts.plot(); plt. legend(loc = 'upper left') 
plt. show() 


得 到 如 图 13-5 所 示 的 图 形 。 


0.06 


0.04 


图 13-5 ”标准 普尔 500 指数 收益 率 的 累积 和 
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13.1.9 ”战胜 股票 市 场 的 数据 展示 bs 


在 完成 两 个 时 间 序 列 的 图 表 后 ,下 一 步 是 分 析 查 看 与 市 场 投资 组 合 相对 的 产品 投资 组 
合 。 两 种 临时 应 急 的 方法 是 : (1) 查 看 你 的 组 合 与 市 场 投资 组 合 的 平均 收益 率 ; (2) 查 看 标 
准 差 (stdev) ,这 是 一 种 关于 上 述 投资 组 合 与 市 场 投资 组 合 的 大 致 风险 代理 。 


Sum_returns = returns. sum() 
sum_returns. mean() 

Out[37]: 0.11059463984630956 
market_returns. sum().mean() 
Out[38]: 0.052580101035346494 
market_ returns. std() 

Out[39]: 

| 0.007627 

SPY 0.007627 

dtype: float64 

returns. std( ) .mean( ) 

Out[40]: 0.01834054247037963 


在 最 后 交互 实例 中 ,可 以 通过 11.06% 的 投资 组 合 收 益 率 与 5. 3% 的 市 场 投资 组 合 收益 
率 来 战胜 股市 。 在 启动 对 冲 基金 之 前 ,我 们 可 能 需 了 解 为 什么 市 场 投资 组 合 获 得 0.76% 的 
标准 差 ,而 我 们 的 投资 组 合 只 获得 了 1. 83% 的 标准 差 。 快 速 回 答 是 ,我 们 冒 了 较 大 风险 ,而 
且 只 是 幸运 罢了 。 进 一 步 的 分 析 涉 及 确定 alpha、beta、 预 期 收益 ,以 及 进行 Fama-French 和 
有 效 边 界 优化 之 类 的 高 级 分 析 。 

在 本 节 中 ,Python 用 于 执行 临时 应 急 的 投资 组 合 分 析 。Python 逐渐 变 成 用 于 真实 数 
据 分 析 的 首选 语言 。Pandas( 时 间 序 列 分 析 )、Pyomo( 线 性 优化 )\Numpy( 数 值 计算 ) .Scipy 
(科学 计算 ) 和 IPython (Python 交互 式 计算 和 开发 环境 ) 之 类 的 库 使 得 在 Python 中 应 用 高 
等 数学 知识 变 得 更 加 轻松 。 


13.2 股票 数据 描述 性 统计 的 Python 应 用 
13.2.1 程序 包 准 备 


## 使 用 免费 .开源 的 Python 财经 数据 接口 包 Tushare 来 获取 数据 

import tushare as ts # 需 先 安装 Tushare 程序 包 

# 此 程序 包 的 安装 是 在 anaconda Prompt 状态 下 ,输入 命令 : pip install tushare 
import Pandas as pd 

import NumPy as np 

import statsmodels.api as sm 

import SciPy. stats as scs 

import matplotlib. pyplot as plt 


13.2.2 选择 股票 代号 获取 股票 数据 


symbols = ['hs300', '600000', '000980', '000981'] 
# 把 相对 应 股票 的 收盘 价 按 照 时 间 的 顺序 存 人 DataFrame 对 象 中 
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data = pd.DataFrame() 

hs300_data = ts.get hist data('hs300','2016— 01— 01','2016—12- 31') 
hs300_data = hs300_data[ 'close'] 

hs300_data = hs300 data[::-1] 

data[ 'hs300'] = hs300_data 

datal = ts.get hist data('600000','2016— 01—01','2016—12—31') 
datal = datal[ 'close'] 

datal = datal[::—1] 

data[ '600000'] = datal 

data2 = ts.get hist data('000980', '2016 - 01- 01','2016—12-31') 
data2 = data2[ 'close'] 

data2 = data2[::-1] 

data[ '000980'] = data2 

data3 = ts.get hist data('000981', '2016 -01- 01','2016—12-31') 
data3 = data3[ 'close'] 

data3 = data3[::—1] 

data[ '000981'] = data3 


13.2.3 查看 数据 和 清理 数据 


# 查 看 股票 收盘 价 

data. info( ) 

<class 'Pandas. core. frame. DataFrame'> 

Index: 184 entries, 2016 - 01- 04 to 2016- 09—30 
Data columns (total 4 columns): 

hs300 184 non - null float64 

600000 166 non— null float64 

000980 106 non - null float64 

000981 137 non -~ null float64 

dtypes: float64(4) 


由 上 可 见 , 各 个 股票 的 记录 不 一 致 。 


# 查 看 数据 
data. head( ) 
Out[40]: 


hs300 600000 000980 000981 
date 
2016-01-04 3469.066 17.73 NaN NaN 
2016-01-05 3478.780 17.96 NaN NaN 
2016-01-06 3539.808 18.11 NaN NaN 
2016-01-07 3294.384 17.63 NaN NaN 
2016- 01-08 3361.563 17.49 NaN NaN 


从 上 可 见 000980 与 000981 股票 的 记录 有 null 值 。 


# 数 据 清 理 
data = data. dropna() 
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T1324 


13: 


股票 数据 的 可 视 化 


# 直接 比较 4 只 股票 ,但 是 规范 化 为 起 始 值 100 
(data / data. ix[0] * 100).plot(figsize = (8, 4)) 


得 到 如 图 13-6 所 示 的 图 形 。 
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图 13-6 ”股票 数据 规范 后 价格 变化 图 
# 用 Pandas 计算 对 数 收益 率 比 Numpy 更 方便 一 些 , 可 使 用 shift 方法 : 
log_returns = np. log(data / data. shift(1)) 
log_returns. head( ) 
log_returns. hist(bins = 50, figsize= (9,4)) 
得 到 如 图 13-7 所 示 的 图 形 。 
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13-7 ”收益 率 的 直方 图 


2.5 不 同时 间 序 列 数据 集 的 不 同 统计 数值 


下 一 步 我 们 考虑 时 间 序 列 数据 集 的 不 同 统计 数值 。 


# 峰 度 值 似乎 在 所 有 4 个 数据 集 上 都 与 正 态 分 布 的 要 求 相差 太 多 


©@ 经 济 金 融 数据 分 析 及 其 Python 应 用 


© 间 定 义 print_statistics 函数 ,为 了 更 加 易于 理解 的 方式 
bg # 输 出 给 定 (历史 或 者 模拟 ) 数 据 集 均值 、 偏 斜 度 或 者 峰 度 等 统计 数字 


def print statistics(array): 
sta = scs.describe(array) 
print "% 14s %15s" % ('statistic', 'value') 
print 30 * "—" 
print "%14s %15.5f" 
print "%14s %15.5f" 
print "%14s %15.5f" 
print "%14s %15.5f" 
print "% 14s 多 15.5f" 
print "%14s %15.5f" 
print "% 14s %15.5f" 
for syn in symbols: 
print "\nResults for symbol %s" % sym 
print 30 # "—" 
log data = np.array(log_returns[ sym]. dropna()) 
print_statistics(log_data) 


得 到 如 下 结果 : 


Results for symbol hs300 


('size', sta[0]) 

('min', sta[1][0]) 
(‘max', sta[1][1]) 
('mean', sta[2]) 

('std', np. sqrt(sta[3])) 
('skew', sta[4]) 
('kurtosis', sta[5]) 


CE 


statistic value 
Size 105.00000 

min 一 0.03135 

max 0.03299 

mean 0.00029 

std 0.00912 

skew 0.20305 
kurtosis 3.30681 


Results for symbol 600000 


kurtosis 44.53671 


Results for symbol 000980 
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max 0.09586 

mean 0.00415 

std 0.03576 

Skew 0.68620 
kurtosis 1.37199 


Results for symbol 000981 


statistic value 
size 105.00000 

min 一 0.10512 

max 0.09578 

mean 0.00100 

std 0.03058 

skew —0.21642 
kurtosis 3.31592 


13.2.6 通过 分 位 数 qq 图 检查 代码 的 数据 


# 下 面 是 HS300 对 数 收益 率 分 位 数 - 分 位 数 图 
sm. qqplot(1og_returns[ 'hs300']. dropna(), line= 's') 
plt. grid(True) 
plt. xlabel( 'theoretical quantiles') 
plt. ylabel( 'sample quantiles') 
得 到 如 图 13-8 所 示 的 图 形 。 
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图 13-8 ”HS300 对 数 收益 率 分 位 数 -分 位 数 图 


# 从 图 13- 8 中 可 以 看 出 : 很 显然 ,样本 的 分 位 数值 不 在 一 条 直线 上 , 表明" 非 正 态 性 "。 
# 在 左 侧 和 右 侧 分 别 有 许 多 值 远 低 于 和 远 高 于 直线 。 

# 换 句 话说 ,这 一 时 间 序 列 信 息 展现 出 "大 尾巴 "(fat tails)。 

# 大 尾巴 指 的 是 (频率 ) 分 布 中 观察 到 的 正 负 异常 值 

# 多 于 正 态 分 布 应 有 表现 的 情况 。 

# 浦发 银行 600000 对 数 收益 率 分 位 数 - 分 位 数 图 

sm. qqplot(1og_returns[ '600000']. dropna(), line= 's') 
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plt. grid(True) 
plt. xlabel( 'theoretical quantiles') 
plt. ylabel( 'sample quantiles') 


得 到 如 图 13-9 所 示 的 图 形 。 
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图 13-9 浦发 银行 600000 对 数 收益 率 分 位 数 -分 位 数 图 


13.2.7 正 态 性 检验 


def normality tests(arr): 
''"'Tests for normality distribution of given data set. 
normality_tests 函数 组 合 了 3 中 不 同 的 统计 学 测试 : 
偏 斜 度 测试 (Skewtest) 
测试 样本 数据 的 偏 斜 度 是 否 " 正 态 "( 也 就 是 值 足够 接近 0) 
峰 度 测试 (kurtosistest) 
与 上 一 种 测试 类 似 , 测试 样本 数据 的 峰 度 是 否 " 正 态 "( 同 样 是 值 足够 接近 0) 
正 态 性 测试 (normaltest) 
组 合 其 他 两 种 测试 方法 ,检验 正 态 性 
print "Skew of data set %14.3f" % scs. skew(arr) 
print "Skew test p— value %14.3f" % scs.skewtest(arr)[1] 
print "Kurt of data set %14.3f" % scs.kurtosis(arr) 
print "Kurt test p— value %14.3f" % scs.kurtosistest(arr)[1] 
print "Norm test p— value %14.3f" % scs.normaltest(arr)[1] 
for syn in symbols: 
print "\nResults for symbol %s" % sym 
print 32 * "一 " 
1og_data = np.array(log_returns[ sym]. dropna( ) ) 
normality tests(log data) 


得 到 如 下 结果 : 


Results for symbol hs300 


Skew of data set 0.203 
Skew test p— value 0.371 
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Kurt of data set 01 
Kurt test p- value 0.000 
Norm test p— value 0.001 


Results for symbol 600000 


Skew of data set 一 5.468 
Skew test p - value 0.000 
Kurt of data set 44.537 
Kurt test p— value 0.000 
Norm test p— value 0.000 


Results for symbol 000980 


Skew of data set 0.686 
Skew test p- value 0.005 
Kurt of data set 1.372 
Kurt test p - value 0.020 
Norm test p— value 0.001 


Results for symbol 000981 


Skew of data set -0.216 
Skew test p— value 0.341 
Kurt of data set 3.316 
Kurt test p- value 0.000 
Norm test p— value 0.001 


13.3 资产 组 合 标准 均值 方差 模型 及 其 Python 应 用 

本 节 上 先 介绍 资产 组 合 均值 方差 模型 要 用 到 的 一 些 概念 , 包 括 资产 组 合 的 可 行 集资 产 组 
合 的 有 效 集 ` 最 优 资 产 组 合 等 。 然 后 介绍 标准 均值 方差 模型 及 其 应 用 。 
13.3.1 资产 组 合 的 可 行 集 


选择 每 个 资产 的 投资 比例 ,就 确定 了 一 个 资产 组 合 , 在 预期 收益 率 EE(rp) 和 标准 差 op 
构成 的 坐标 平面 co 一 ECrp) 上 就 确定 了 一 个 点 。 因 此 ,每 个 资产 组 合 对 应 着 op 一 ECrp) 坐 标 
平面 上 的 一 个 点 ; 反之 ,op 一 E(rp) 坐 标 平面 上 的 一 个 点 对 应 着 某 个 特定 的 资产 组 合 。 如 果 
投资 者 选择 了 所 有 可 能 的 投资 比例 , 则 这 些 众多 的 资产 组 合 点 将 在 op 一 E(rp) 坐 标 平 面 上 
构成 一 个 区 域 。 这 个 区 域 称 为 资产 组 合 的 可 行 集 或 可 行 域 。 简 言 之 ,可 行 集 是 实际 投资 中 
所 有 可 能 的 集合 。 也 就 是 说 ,所 有 可 能 的 组 合 将 位 于 可 行 集 的 边界 和 内 部 。 


13.3.2 有效 边界 与 有 效 组 合 


1. 有 效 边界 的 定义 
对 于 一 个 理性 的 投资 者 ,他 们 都 是 厌恶 风险 而 偏好 收益 的 。 在 一 定 的 收益 下 ,他 们 将 选 
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择 风 险 最 小 的 资产 组 合 ; 在 一 定 的 风险 下 ,他 们 将 选择 收益 最 大 的 资产 组 合 。 同 时 满足 这 
两 个 条 件 的 资产 组 合 的 集合 就 是 有 效 集 , 又 称 有 效 边 界 。 位 于 有 效 边界 上 的 资产 组 合 为 有 
效 组 合 。 


2. 有 效 集 的 位 置 
有 效 集 是 可 行 集 的 一 个 子 集 。 可 行 集 、 有 效 集 、 有 效 组 合 如 图 13-10 所 示 。 


1.05 


0.95 EB 
0.85 
0.75 有 效 组 合 C 
将 庆 
党 0.65 
各 0.55 e 
4 BA 5 
司 045 可 行 组 合 ， 但 非 有 效 
0.35 2 
025 , 
O15 包 络 线 一 
0.05 
0.00 0.20 0.40 0.60 0.80 1.00 1.20 
组 合 标准 差 
图 13-10 可行 集 


3. 最 优 资产 组 合 的 确定 


在 确定 了 有 效 集 的 形状 之 后 ,投资 者 就 可 以 根据 自己 的 无 差异 曲线 选择 效用 最 大 化 的 
资产 组 合 。 这 个 最 优 资产 位 于 无 差异 曲线 与 有 效 集 的 相 切 点 。 
如 图 13-11 所 示 ,Ui ,Us ,Us 分 别 表示 三 条 无 差异 ”Ho Uj 了 
曲线 ,它们 的 特点 是 下 凸 , 其 中 的 效用 水 平 最 高 ,U。 es 
次 之 ,Us 最 低 ,虽然 投资 者 更 加 偏好 于 Un ,但 是 在 可 行 
集 上 找 不 到 这 样 的 资产 组 合 ,因而 是 不 可 能 实现 的 。 
Us 上 的 资产 组 合 虽然 可 以 找到 ,但 是 由 于 Us 所 代表 的 
效用 低 于 Us ,所 以 Us 上 的 资产 组 合 都 不 是 最 优 的 资 二 
产 组 合 。Us 正 好 与 有 效 边界 相 切 ,代表 了 可 以 实现 的 
最 高 投资 效用 ,因此 已 点 所 代表 的 组 合 就 是 最 优 资产 ”图 13-11 有 效 边 界 与 无 差异 曲线 
组 合 。 


13.3.3 标准 均值 方差 模型 的 求解 

标准 均值 方差 模型 是 标准 的 资产 组 合理 论 模型 ,也 就 是 马 科 维 茨 最 初创 建 的 模型 , 它 讨 
论 的 是 理性 投资 者 如 何在 投资 收益 风险 两 者 之 间 进 行 权 衡 ,以 获得 最 优 回报 的 问题 。 这 个 
问题 是 一 个 二 次 规划 问题 ,分 为 等 式 约束 和 不 等 式 约束 两 种 ,我 们 只 讨论 等 式 约束 下 的 资产 
组 合 优化 问题 。 
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在 介绍 资产 组 合理 论 之 前 , 先 引 入 如 下 概念 。 


定义 : 如 果 一 个 资产 组 合 对 确定 的 预期 收益 率 有 最 小 的 方差 , 则 称 该 资产 组 合 为 最 小 


方差 资产 组 合 。 


假设 有 nn 种 风险 资产 ,其 预期 收益 率 组 成 的 向 量 记 为 6 二 (EC(r),E(rs),*…,E(r,))"， 


每 种 风险 资产 的 权重 向 量 是 X = (zi,，…,x,)", 协 方差 矩阵 记 为 V 二 [os 


和 as 机 基本 = 


[1,1,…,1]", 并 且 假设 协 方差 矩阵 记 为 V= [6 ],x 是非 退 化 矩阵 ,6 隆 k 了 Ck 为 任 一 常数 )。 


相应 地 ,该 资产 组 合 的 收益 率 记 为 已 (rp) 一 XT E ,风险 记 为 史 一 XITVX。 


投资 者 的 行为 是 : 给 定 一 定 的 资产 组 合 预期 收益 率 y 水 平 , 选 择 资产 组 合 使 其 风险 最 


小 。 这 其 实 就 是 要 求解 如 下 形式 的 问题 (标准 均值 方差 模型 ) : 
min 二 一 XVX 
ixX=1 
全 
E(re) = X= 


这 是 一 个 等 式 约束 的 极 值 问 题 ,我们 可 以 构造 Lagrange 函数 : 
IR = XVX 十 NI 一 ITrX) + pp— XT E) 


则 最 优 的 一 阶 条 件 为 
aL 


ox 

aL 
en 

7 1X 

9As 人 x 


由 (3) 得 最 优 解 : 
X=V AIHA 0) 
(4) 分 别 左 乘 T 和 67 得 
1 一 iiry-I 十 zirV 于 一 Na 十 120 


六 一 ETV-IT 十 is ETV 一 120 十 hac 


a= Tv- 
、 0 一 TV 
记 

c 一 ETIV CE 

A=ac—b 


从 而 方程 组 (5) 有 人 和解。 如 果 冯 kIT , 则 A 二 0, 此 时 除 二 k 外 ,方程 无 解 
组 (5) 得 
A = (Cc—wp)/A 
人 = (ya 一 六/A 


(1) 


(3) 


(4) 


(5) 


。 解 1,4, 方程 


(6) 
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将 (6) 代 入 (4) 得 
{Ci Ga ViC—i Vidya—De 
X=V ( ) 十 
Vilcl—be), Vilae—b1) 
和 Hp 和 (73 
再 将 (4) 代 入 (2) 得 到 最 小 方差 资产 组 合 的 方差 
o% =X™VX = XTVV NAIA 2) = XT OAT HA GE) = AXTIHAXTE 
一 Mi 十 ?一 (ou 一 2 十 c)/A (8) 
式 (8) 给 出 了 资产 组 合 权 重 与 预期 收益 率 的 关系 。 根 据 (8) 可 知 ,最 小 方差 资产 组 合 在 
坐标 平面 olrp) 一 Elrp) 平 面 上 有 双 曲 线形 式 如 图 13-12 所 示 。 而 在 2 Crp) 一 Elrp) 平 面 上 
可 有 抛物 线形 式 ,如 图 13-13 所 示 。 
ED EC 
双 曲 线 抛物 线 
blaN bla N 
O 元 O 芝 
图 13-12 双 曲 线 图 13-13 抛物 线 
至 此 ,我 们 得 到 描述 最 小 方差 资产 组 合 的 两 个 重要 的 量 : 
Vi(CIT 一 0E) Vilad—obl) 
A Bi A 
令吉 bu Vi .xX BE 
0% = (ap’ 一 2 十 c)/A 
13.3.4 标准 均值 方差 模型 的 Python 计算 
例 13-1 考虑 一 个 资产 组 合 , 其 预期 收益 率 矩 阵 为 E=[0. 05,0. 1] , 协 方差 矩阵 是 
V= 


|， 1 |. 现 划 收益 吝 w 一 0. 075. 求 最 小 方 资产 组 合 的 权重 和 方差， 


i 1 of1] ,ry 1 0]fo.2] 
解 : co 一 1rV-1=[1 | i 1rV-E=[1 |, 中 | 


0. 5 
1 01[0.2 
cee =[o.2 0.5]|, ios 
0 1JL0.5 


X=E+ph; = Cay’ —2bto)/A 
该 实例 计算 的 Python 代码 与 计算 结果 如 下 : 
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from NumPY import 关 
v=mat('1 0;0 1') 
print v 
10] 
01]] 
=mat('0.05;0.1') 
print e 

0.05] 
0.11] 
ones = mat('1;1') 


m 


print ones 

1] 

1]] 

a= ones.T*xv.I*ones 
print a 

2.]] 

b= ones.Txv.I*e 
print b 

0.15]] 
二 
print c 

0.0125]] 
d=axc-bxb 
print d 

0.0025]] 

u=0.075 

c=0.0125 

b=0.15 

g= v.Ix (cxones 一 bxe)/d 
a=2.0 

h= v.Ix (axe-bxones)/d 
x=g+hxu 


print x 

[[ 0.5] 

[ 0.5]] 

var= (axuxu-2x*bxu+c)/d 
print var 


[[ 0.5]] 


13.4 资产 组 合 有 效 边 界 的 Python 绘制 


例 13-2 输入 数据 如 表 13-1 所 示 。 
表 13-1 已 知 数据 


输入 各 个 证 券 的 预期 收益 率 
证 券 1 证 券 2 证 券 3 证 券 4 
预期 收益 率 8% 12% 6% 18% 


标准 差 32% 26% 45% 36% 
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SS 
We 续 表 
全 
® 输入 各 个 证 券 间 的 协 方差 矩阵 
证 券 1 证 券 2 证 券 3 证 券 4 
证 券 1 0. 1024 0.0328 0.0655 一 0. 0022 
证 券 2 0.0328 0.0676 一 0.0058 0. 0184 
证 券 3 0. 0655 一 0.0058 0. 2025 0. 0823 
证 券 4 一 0.0022 0.0184 0.0823 0. 1296 
输入 单位 向 量 转 置 1 1 1 1 


建立 Excel 数据 文件 为 yxbj. xls ,数据 如 下 : 


利用 上 述 给 出 的 数据 ,绘制 四 个 资产 组 成 的 投资 组 合 的 有 效 边界 。 
为 了 绘制 四 个 资产 投资 组 合 的 有 效 边界 ,我们 编制 Python 代码 如 下 : 


import Pandas as pd 

import NumPy as np 

import matplotlib. pyplot as plt # 绘 图 工具 

# 读 取 数 据 并 创建 数据 表 , 名 称 为 u 

u= pd. DataFrame(pd. read_excel( 'G:\\2glkx\\data\\yxbj. xls')) 
V= mat('0.1024 0.0328 0.0655 - 0.0022;0.0328 0.0676 - 0.0058 0.0184;0.0655 -0.0058 0.2025 
0.0823; - 0.0022 0.0184 0.0823 0.1296') 

e= mat('0.08;0.12;0.06;0.18') 

ones = mat('1;1;1;1') 

a= ones.TxV.I*ones 

b= ones.TxV.Ix e 

C= e.TV.Ix*e 

d= axc—-bxb 

a= np.array(a) 

b= np.array(b) 

c=np.array(c) 

d= np.array(d) 

u= np.array(u) 
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var= (axuxu-2.0xbxu+c)/d 


sigp= sqrt(var) 
print sigp,u 
[[ 0.40336771] 
[ 0.35191492] 
[ 0.3043241 ] 
[ 0.2627026 ] 
[ 0.23030981] 
[ 0.21143086] 
[ 0.20974713] 
[ 0.22564387] 
[ 0.25586501] 
[ 0.29605591] 
[ 0.34272694] 
[ 0.39357954] 
[ 0.44718944] 
[ 0.50267524] 
[ 0.55947908] 
[ 0.61723718] 
[ 0.67570488] 
[ 0.73471279] 
[ 0.7941405 ] 
[ 0.85390036]] 
[[ 0.01] 

[ 0.03] 

[ 0.05] 

[ 0.07] 

[ 0.09] 

[ 0.11] 

[ 0.13] 

[ 0.15] 
[L017] 

[ 0.19] 
C02u 

[ 0.23] 

[ 0.25] 

[ 0.27] 

[ 0.29] 
[0.31] 

[ 0.33] 

[ 0.35] 
[L037] 

[ 0.39]] 

plt. plot(sigp, u, 'ro') 


用 sigp 和 nu 的 数据 可 得 到 如 图 13-14 所 示 4 个 资产 投资 组 合 的 有 效 边界 。 


从 上 面 显示 的 数据 和 图 13-14 中 ,我 们 可 以 看 出 ,最 小 风险 (标准 差 ) 所 对 应 的 点 是 
(0. 20974713,0. 13) 。 
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0.40 


2 03 04 05 06 07 08 


图 13-14 ”有效 边界 图 


0.9 


13.5 Markowitz 投资 组 合 优化 的 Python 应 用 


Jo 


Markowitz 投资 组 合 优化 基本 理论 


多 股票 策略 回 测 时 常常 遇 到 这 样 的 问题 : 仓位 如 何 分 配 ? 其 实 , 这 个 问题 早 在 1952 年 
马 科 维 茨 (Markowitz) 就 给 出 了 答案 , 即 : 投资 组 合理 论 。 根 据 这 个 理论 ,我 们 可 以 对 多 资 


产 的 组 合 配置 进行 三 方面 的 优化 。 
(1) 找到 有 效 边界 (或 有 效 前 沿 ) ,在 既定 的 收益 率 下 使 投资 组 合 的 方差 最 小 化 ; 
(2) 找到 sharpe 最 优 的 投资 组 合 ( 收 益 -风险 均衡 点 ); 
(3) 找到 风险 最 小 的 投资 组 合 。 


该 理论 基于 用 均值 方差 模型 来 表述 投资 组 合 的 优 劣 的 前 提 。 我 们 将 选取 几 只 股票 ,用 
蒙特 卡 洛 模拟 来 探究 投资 组 合 的 有 效 边 界 。 通 过 Sharpe 比 最 大 化 和 方差 最 小 化 两 种 优化 
方法 来 找到 最 优 的 投资 组 合 配 置 权重 参数 。 最 后 ,刻画 出 可 能 的 分 布 , 两 种 最 优 以 及 组 合 的 


有 效 边界 。 


13.5.2 投资 组 合 优化 实例 的 Python 应 用 


例 13-3 三 个 投资 对 象 的 单项 回报 率 历史 数据 如 表 13-2 所 示 。 
表 13-2 三 个 投资 对 象 的 单项 回报 率 历史 数据 
时 期 股票 1 股票 2 债券 
1 0 0.07 0.06 
0.04 0.13 0.07 
3 0.13 0.14 0.05 
4 0.19 0. 43 0. 04 
5 一 0.15 0. 67 0.07 
6 一 0.27 0. 64 0.08 
下 0. 37 0 0.06 
8 0.24 一 0. 22 0.04 
9 一 0.07 0. 18 0.05 
10 0.07 O31 0.07 
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续 表 
时 期 股票 1 股票 2 债券 
11 0.19 0.59 0.1 
12 0. 33 0. 99 0. 11 
13 一 0.05 一 0. 25 0. 15 
14 0.22 0.04 0.11 
15 0. 23 | 0.09 
16 0.06 一 0. 15 0.1 
17 0. 32 一 0. 12 0.08 
18 0 0.16 0.06 
19 0.05 0.22 0.05 
20 0.17 一 0.02 0.07 


求 三 个 资产 的 投资 组 合 夏普 比 最 大 化 和 方差 最 小 化 的 权 数 。 
先 将 此 表 数 据 在 目录 G:\2glkx\data 下 建立 tzsy. xls 数据 文件 。 


# 准备 工作 

import Pandas as pd 

import NumPY as np 井 数值 计算 
import statsmodels.api as sm # 统 计 计 算 
import SciPy. stats as scs # 科 学 计算 
import matplotlib. pyplot as plt # 绘 制图 形 
1. 选择 股票 

# 取 数 


data = pd.DataFrame() 

data = pd. read_excel( 'F:\\2glkx\\data\\tzsy. xls') 
data = pd. DataFrame( data) 

# 清 理 数据 

data = data. dropna( ) 

data. head( ) 

data. plot (figsize = (8,3)) 


得 到 如 图 13-15 所 示 的 图 形 。 


图 13-15 三 个 投资 对 象 的 收益 率 变化 图 
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2. 计算 不 同 证 券 的 均值 . 协 方差 


returns = data 


returns. mean( ) 


Out[8]: 

sl 0.1130 
S2 0.1850 
b 0.0755 


dtype: float64 
returns. cov() 
Out[9]: 

sl S2 b 
sl 0.027433 -0.010768 -0.000133 
s2 一 0.010768 0.110153 -0.000124 
b 一 0.000133 -0.000124 0.000773 


3. 给 不 同 资产 随机 分 配 初始 权重 


noa=3 

weights = np.random. random(noa) 

weights /= np. sum(weights) 

weights 

Out[10]: array([ 0.23377046, 0.51393812, 0.25229142]) 


4. 计算 资产 组 合 的 预期 收益 、 方 差 和 标准 差 


np. sum( returns. mean( ) * weights) 

Out[12]: 0.14054261642690027 

np. dot(weights.T，np. dot(returns. cov(),weights)) 

Out[13]: 0.028007968937959201 

np. sqrt(np. dot(weights.T，np. dot(returns. cov(),weights))) 
Out[15]: 0.16735581536940747 


5. 用 蒙特 卡 洛 模拟 产生 大 量 随机 组 合 


给 定 的 一 个 股票 池 ( 证 券 组 合 ) 如 何 找 到 风险 和 收益 平衡 的 位 置 。 下 面 通过 一 次 蒙特 卡 
洛 模拟 ,产生 大 量 随机 的 权重 向 量 , 并 记录 随机 组 合 的 预期 收益 和 方差 。 


port_returns = [] 
port_variance = [] 
for p in range(4000) : 
weights = np.random.random(noa) 
weights / = np. sum(weights) 
port_returns. append(np. sum(returns.mean() * weights)) 
port_variance. append(np. sqrt(np. dot (weights.T, np.dot(returns.cov(), weights)))) 
port_returns = np.array(port returns) 
port _ variance = np.array(port variance) 
# 无 风险 利率 设 定 为 4% 
risk free = 0.04 
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plt. figure(figsize = (8,3)) 

plt. scatter(port_variance, port_returns, c= (port returns — risk free)/port_variance, marker = '0') 
plt. grid(True) 

plt. xlabel( 'excepted volatility') 

plt. ylabel( 'excepted return') 

plt.colorbar(label = 'Sharpe ratio') 


得 到 如 图 13-16 所 示 的 图 形 。 


0.20 
0.18 要好 
0.16 」 图 1.20 
8 s 
2 0.14 1.05 于 
如 所 
3 0.12 0.90 尼 
中， -| 
员 ba 
$5 0.10 0.75 
0.08 | 国 o.6o 
0.45 


0.06 
0.00 0.05 0.10 0.15 0.20 025 0.30 0.35 
expected volatility 


图 13-16 蒙特 卡 洛 模 拟 产 生 大 量 随机 投资 组 合 


6. 投资 组 合 优化 1 一 一 sharpe 最 大 


建立 statistics 函数 来 记录 重要 的 投资 组 合 统计 数据 (收益 ,方差 和 夏普 比 ), 通 过 对 约 
束 最 优 问题 的 求解 ,得 到 最 优 解 。 其 中 约束 是 权重 总 和 为 1。 


def statistics(weights): 

weights = np.array(weights) 

port_returns = np. sum(returns.mean() * weights) 

port_variance = np. sqrt(np.dot(weights.T, np.dot(returns.cov(),weights))) 

return np.array([port_returns, port_variance, port_returns/port_variance]) 

# 最 优化 投资 组 合 的 推导 是 一 个 约束 最 优化 问题 
import SciPy. optimize as sco 
# 最 小 化 夏普 指数 的 负 值 
def min_sharpe(weights): 

return - statistics(weights)[2] 
# 约束 是 所 有 参数 (权重 ) 的 总 和 为 1。 这 可 以 用 minimize 函数 的 约定 表达 如 下 
cons = ({'type':'eq', 'fun':lambda x: np.sum(x) 一 1}) 
# 我 们 还 将 参数 值 ( 权 重 ) 限 制 在 0 和 1 之 间 。 这 些 值 以 多 个 元 组 组 成 的 一 个 元 组 形式 提供 给 最 小 化 
函数 
bnds = tuple((0,1) for x in range(noa)) 
# 优 化 函数 调用 中 忽略 的 唯一 输入 是 起 始 参 数列 表 ( 对 权重 的 初始 猜测 )。 我 们 简单 的 使 用 平均 
分 布 。 
opts = sco.minimize(min sharpe, noa* [1. /noa, ]，method = 'SLSQP', bounds = bnds, constraints = 
cons) 
opts 


得 到 如 下 结果 : 
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yo fun: — 2.9195938061882454 
-4 jac: array([ 0.01298031, — 0.00767258, — 0.00054446, 0. ]) 
message: 'Optimization terminated successfully.' 

nfev: 44 

nit: 8 

njev: 8 

status: 0 
Success: True 
x: array([ 0.05163244, 0.02181969, 0.92654787]) 


得 到 的 最 优 组 合 权重 向 量 为 : 


opts[ 'x']. round(3) 
Out[21]: array([ 0.052, 0.022, 0.927]) 


sharpe 最 大 的 组 合 3 个 统计 数据 分 别 为 : 
# 预期 收益 率 、 预 期 波动 率 . 最 优 夏普 指数 


statistics(opts[ 'x']). round(3) 
Out[24]: array([ 0.08 , 0.027, 2.92 ]) 


7. 投资 组 合 优化 2 一 一 方差 最 小 
下 面 我 们 通过 方差 最 小 来 选 出 最 优 投资 组 合 : 


def min_variance(weights) : 
return statistics(weights)[1] 
optv = sco.minimize(min variance, noa* [1. /noa, ],method = 'SLSQP', bounds = bnds, constraints = 
cons) 
optv 
Out[25] : 
fun: 0.027037791350341657 
jac: array([ 0.0262073 , 0.02867849, 0.02704901, 0. ]) 
message: 'Optimization terminated successfully.' 
nfev: 42 
nit: 8 
njev: 8 
status: 0 
success: True 
x: array([ 0.03570797, 0.01117468, 0.95311736]) 


方差 最 小 的 最 优 组 合 权重 向 量 及 组 合 的 统计 数据 分 别 为 : 


optv[ 'x']. round(3) 
Out[26]: array([ 0.036, 0.011, 0.953]) 


# 得 到 的 预期 收益 率 、 波 动 率 和 夏普 指数 
statistics(optv[ 'x']). round(3) 
Out[27]: array([ 0.078, 0.027, 2.887]) 


8. 投资 组 合 的 有 效 边界 
有 效 边界 由 既定 的 目标 收益 率 下 方差 最 小 的 投资 组 合 构成 。 
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在 最 优化 时 采用 两 个 约束 :(1) 给 定 目 标 收益 率 ;(2) 投 资 组 合 权重 和 为 1。 


def min variance(weights): 
return statistics(weights)[1] 
# 在 不 同 目标 收益 率 水 平 (target_returns) 循 环 时 ,最 小 化 的 一 个 约束 条 件 会 变化 . 
target returns = np.linspace(0.0,0.5,50) 
target variance = [] 
for tar in target returns: 
cons = ({'type':'eq', 'fun':lambda x:statistics(x)[0] - tar}, {'type': 'eq', 'fun': lambda x:np. sum 
(x) —1}) 
res = sco. minimize (min_variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints = cons) 
target_variance. append(res[ 'fun']) 


target variance = np.array(target variance) 


下 面 是 最 优化 结果 的 展示 。 

又 号 : 构成 的 曲线 是 有 效 边界 (目标 收益 率 下 最 优 的 投资 组 合 ) 
红星 : sharpe 最 大 的 投资 组 合 

黄 星 : 方差 最 小 的 投资 组 合 


plt. figure(figsize = (8,3)) 

# 贺 图: 蒙特 卡 洛 随机 产生 的 组 合 分 布 
plt, scatter(port_variance, port_returns, ¢ = port_returns/port_ variance,marker = 'o") 
# 叉 号 : 有 效 边界 

plt. scatter(target. variance, target_returns，c = target. returns/target. variance, marker = 'x') 
# 红 星 : 标记 最 高 sharpe 组 合 

plt. plot(statistics(opts[ 'x'])[1], statistics(opts['x'])[0], 'r*', markersize = 15.0) 

# 黄 星 : 标记 最 小 方差 组 合 

plt. plot(statistics(optv[ 'x'])[1], statistics(optv[ 'x'])[0], 


yx*', markersize 15.0) 
plt. grid(True) 

plt. xlabel( 'expected volatility') 

plt. ylabel( 'expected return') 


plt.colorbar(label = 'Sharpe ratio') 


得 到 如 图 13-17 所 示 的 图 形 。 
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图 13-17 投资 组 合 的 有 效 边界 
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13.5.3 投资 组 合 实际 数据 的 Python 应 用 


## 导 和 人 需要 的 程序 包 

import tushare as ts 井 需 先 安装 tushare 程序 包 
# 此 程序 包 的 安装 命令 : pip install tushare 

import Pandas as pd 


import NumPY as np 井 数值 计算 
import statsmodels.api as sm # 统 计 运 算 
import SciPy. stats as scs 井 科学 计算 
import matplotlib. pyplot as plt # 绘 图 


1. 选择 股票 代号 、 获 取 股 票数 据 、 清 理 及 其 可 视 化 


symbols = ['hs300', '600000', '000980', '000981'] 

# 把 相对 应 股票 的 收盘 价 按 照 时 间 的 顺序 存 人 DataFrame 对 象 中 

data = pd.DataFrame() 

hs300_data = ts.get hist data('hs300','2016— 01— 01','2016—12— 31') 
hs300_data = hs300_data[ 'close'] # 取 沪 深 300 收盘 价 数据 
hs300_data = hs300 data[::-1] # 按 日 期 小 到 大 排序 

data[ 'hs300'] = hs300_data 

datal = ts.get hist data('600000','2016— 01— 01','2016—12- 31') 
datal = datal[ 'close'] # 浦 发 银行 收盘 价 数据 
datal = datal[::—1] 

data[ '600000'] = datal 

data2 = ts.get hist data('000980', '2016- 01- 01','2016— 12— 31') 
data2 = data2[ 'close'] # 金 马 股份 收盘 价 数据 
data2 = data2[::—1] 

data[ '000980'] = data2 

data3 = ts.get_hist data('000981', '2016 -01- 01','2016-12-31') 
data3 = data3[ 'close'] # 银 亿 股 份 收盘 价 数据 
data3 = data3[::—1] 

data[ '000981'] = data3 

# 数 据 清理 

data = data. dropna( ) 

data. head( ) 

# 规 范 化 后 时 序数 据 

(data/data. ix[0] * 100).plot(figsize = (8,4)) 


得 到 如 图 13-18 所 示 的 图 形 。 


2. 计算 不 同 证 券 的 均值 协 方差 和 相关 系数 


计算 投资 资产 的 协 方差 是 构建 资产 组 合 过 程 的 核心 部 分 。 运 用 Pandas 内 置 方法 生产 
协 方差 矩阵 。 


returns = np.log(data / data. shift(1)) 
returns. mean( ) * 252 

Out[63]: 

hs300 0.073141 

600000 -0.150356 
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datal = datal[ 'close'] # 浦 发 银行 收盘 价 数据 
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data2 = ts.get hist data('000980', '2016- 01- 01','2016— 12— 31') 
data2 = data2[ 'close'] # 金 马 股份 收盘 价 数据 
data2 = data2[::—1] 

data[ '000980'] = data2 

data3 = ts.get_hist data('000981', '2016 -01- 01','2016-12-31') 
data3 = data3[ 'close'] # 银 亿 股 份 收盘 价 数据 
data3 = data3[::—1] 

data[ '000981'] = data3 

# 数 据 清理 

data = data. dropna( ) 

data. head( ) 

# 规 范 化 后 时 序数 据 

(data/data. ix[0] * 100).plot(figsize = (8,4)) 


得 到 如 图 13-18 所 示 的 图 形 。 


2. 计算 不 同 证 券 的 均值 协 方差 和 相关 系数 


计算 投资 资产 的 协 方差 是 构建 资产 组 合 过 程 的 核心 部 分 。 运 用 Pandas 内 置 方法 生产 
协 方差 矩阵 。 


returns = np.log(data / data. shift(1)) 
returns. mean( ) * 252 

Out[63]: 

hs300 0.073141 
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图 13-18 ”规范 的 时 序 价格 变化 


000980 1.044763 
000981 0.252343 
dtype: float64 
returns. cov() # 计 算 协 方差 
Out[64]: 
hs300 600000 000980 000981 
hs300 0.000083 .000051 0.000088 0.000095 
600000 0.000051 .000236 0.000081 0.000048 
000980 0.000088 .000081 0.001279 0.000111 
000981 0.000095 .000048 0.000111 0.000935 
returns. corr() # 计 算 相 关系 数 
hs300 600000 000980 000981 
hs300 1.000000 .363061 0.269357 0.341314 
600000 0.363061 .000000 0.146524 0.102416 
000980 0.269357 .146524 1.000000 0.101860 
000981 0.341314 .102416 0.101860 1.000000 


由 上 可 见 , 各 证 券 之 间 的 相关 系数 不 太 大 ,可 以 做 投资 组 合 。 


SeoS 


oor-o 


3. 给 不 同 资产 随机 分 配 初始 权重 
假设 不 允许 建立 空头 头寸 ,所 有 的 权重 系数 均 在 0 一 1 之 间 。 


noa=4 

weights = np.random. random(noa) 

weights /= np. sum(weights) 

weights 

Out[65]: array([ 0.52080962, 0.33183961, 0.12028388, 0.02706689]) 


4. 计算 预期 组 合 收益 、 组 合 方差 和 组 合 标准 差 


np. sum( returns. mean( ) * weights) 

Out[66]: 0.0004789557948133873 

np. dot (weights. T, np. dot(returns. cov(),weights) ) 

Out[67]: 0.00010701777937859502 

np. sqrt(np. dot (weights.T, np. dot(returns. cov(),weights))) 
Out[68]: 0.010344939795793644 
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5. 用 蒙特 卡 洛 模拟 产生 大 量 随机 组 合 


现在 ,我 们 最 想 知道 的 是 给 定 的 一 个 股票 池 ( 投 资 组 合 ) ,如 何 找 到 风险 和 收益 平衡 的 位 
置 。 下 面 通过 一 次 蒙特 卡 洛 模拟 ,产生 大 量 随 机 的 权重 向 量 , 并 记录 随机 组 合 的 预期 收益 和 
方差 。 


port returns = [] 
port variance = [] 
for p in range(4000) : 
weights = np.random.random(noa) 
weights /= np. sum(weights) 
port_returns. append(np. sum(returns.mean() * 252 * weights) ) 
port_variance.append(np. sqrt(np. dot(weights.T，np.dot(returns.cov() * 252, weights)))) 
port_returns = np.array(port_returns) 
port_variance = np.array(port variance) 
# 无 风险 利率 设 定 为 1.5% 
risk_free = 0.015 
plt. figure(figsize = (8,4)) 
plt. scatter(port_variance, port_returns, c= (port_returns - risk_free)/port_variance，marker 
= '0') 
plt. grid(True) 
plt. xlabel( 'expected volatility') 
plt. ylabel( 'expected return') 
plt.colorbar(label = 'Sharpe ratio') 


得 到 如 图 13-19 所 示 的 图 形 。 
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图 13-19 ”蒙特 卡 洛 模拟 产生 大 量 随机 组 合 


6. 投资 组 合 优化 1 一 一 Sharpe 最 大 


建立 statistics 函数 来 记录 重要 的 投资 组 合 统计 数据 (收益 、 方 差 和 夏普 比 ) 
通过 对 约束 最 优 问题 的 求解 ,得 到 最 优 解 。 其 中 约束 是 权重 总 和 为 1 。 


def statistics(weights): 
weights = np.array(weights) 
port returns = np. sum(returns. mean() * weights) * 252 
port variance = np. sqrt(np. dot(weights.T，np. dot(returns. cov() * 252,weights))) 
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得 到 如 图 13-19 所 示 的 图 形 。 
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图 13-19 ”蒙特 卡 洛 模拟 产生 大 量 随机 组 合 


6. 投资 组 合 优化 1 一 一 Sharpe 最 大 


建立 statistics 函数 来 记录 重要 的 投资 组 合 统计 数据 (收益 、 方 差 和 夏普 比 ) 
通过 对 约束 最 优 问题 的 求解 ,得 到 最 优 解 。 其 中 约束 是 权重 总 和 为 1 。 


def statistics(weights): 
weights = np.array(weights) 
port returns = np. sum(returns. mean() * weights) * 252 
port variance = np. sqrt(np. dot(weights.T，np. dot(returns. cov() * 252,weights))) 
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return np.array([port_returns，Pport_variance，Pport_returns/port_variance]) 

# 最 优化 投资 组 合 的 推导 是 一 个 约束 最 优化 问题 
import SciPy. optimize as sco 
# 最 小 化 夏普 指数 的 负 值 
def min Sharpe(weights): 

return - statistics(weights)[2] 
# 约束 是 所 有 参数 (权重 ) 的 总 和 为 1。 这 可 以 用 minimize 函数 的 约定 表达 如 下 
cons = ({'type':'eq', 'fun':lambda x: np.sum(x) 一 1}) 
# 我 们 还 将 参数 值 (权重 ) 限 制 在 0 和 1 之 间 。 这 些 值 以 多 个 元 组 组 成 的 一 个 元 组 形式 提供 给 最 小 化 
函数 
bnds = tuple((0,1) for x in range(noa)) 
# 优 化 函数 调用 中 忽略 的 唯一 输入 是 起 始 参 数列 表 ( 对 权重 的 初始 猜测 )。 我 们 简单 地 使 用 平均 
分 布 。 
opts = sco.minimize(min sharpe, noa* [1. /noa, ]，method = 'SLSQP', bounds = bnds, constraints = 


cons) 


opts 
运行 上 述 代码 ,得 到 如 下 结果 : 


Out[90]: 
fun: 一 1.870564674629059 
jac: array([ 2.87091583e— 02, 4.62549537e— 01，- 4.63277102e- 05, 
2.12848186e— 04, 0.00000000e+ 00]) 
message: 'Optimization terminated successfully.' 
nfev: 37 
nit: 6 
njev: 6 
status: 0 
success: True 
x: array([ 8.45677695e— 18, 0.00000000e+ 00, 8.21263786e- 01, 


1.78736214e -01]) 
输入 如 下 代码 : 
opts[ 'x']. round(3) 
得 到 的 最 优 组 合 权 重 向 量 为 : 


Out[91]: array([ 0. ’ 0. 5 0.821, 0.179]) 
# 预期 收益 率 、 预 期 波动 率 、 最 优 夏 普 指 数 
statistics(opts[ 'x']). round(3) 


得 到 Sharpe 最 大 的 组 合 3 个 统计 数据 分 别 为 : 
Out[92]: array([ 0.903, 0.483, 1.871]) 

7. 投资 组 合 优化 2 一 一 方差 最 小 

下 面 我 们 通过 方差 最 小 来 选 出 最 优 投 资 组 合 。 
def min variance(weights): 


return statistics(weights)[1] 
optv = sco.minimize(min variance, noa* [1. /noa, ],method = 'SLSQP', bounds = bnds, constraints = 
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by cons) 
本 optv 


得 到 如 下 结果 : 


Out[94]: 
fun: 0.14048796305920866 
jac: array([ 0.14040739, 0.14094629, 0.15554342, 0.15803597, 0. ]) 
message: 'Optimization terminated successfully.' 
nfev: 36 
nit: 6 
njev: 6 
status: 0 
Success: True 
x: array([ 8.50485211le- 01, 1.49514789e— 01, 6.07153217e— 18, 
6.07153217e— 18]) 


方差 最 小 的 最 优 组 合 权重 向 量 及 组 合 的 统计 数据 分 别 为 : 


optv[ 'x']. round(3) 


得 到 如 下 结果 : 

Out[95]: array([ 0.85, 0.15, 0. ， 0. ]) 
# 得 到 的 预期 收益 率 、 波 动 率 和 夏普 指数 
statistics(optv[ 'x']). round(3) 

得 到 如 下 结果 : 


Out[96]: array([ 0.04, 0.14 , 0.283]) 


8. 投资 组 合 的 有 效 边界 (前 沿 ) 


有 效 边界 由 既定 的 目标 收益 率 下 方差 最 小 的 投资 组 合 构成 。 
在 最 优化 时 采用 两 个 约束 : (1) 给 定 目标 收益 率 ; 2) 投资 组 合 权重 和 为 1 。 


def min_variance(weights) : 
return statistics(weights)[1] 

# 在 不 同 目标 收益 率 水 平 (target_returns) 循 环 时 ,最 小 化 的 一 个 约束 条 件 会 变化 。 
target_returns = np.linspace(0.0,0.5,50) 
target_variance = [] 
for tar in target returns: 

cons = ({'type':'eq', 'fun':lambda x: statistics(x)[0] - tar}, {'type': 'eq', 'fun': lambda x:np. sum 
(x) -1}) 

res = sco. minimize (min_variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints = cons) 

target_variance. append( res[ 'fun']) 
target variance = np.array(target variance) 


下 面 是 最 优化 结果 的 展示 。 
叉 号 : 构成 的 曲线 是 有 效 边界 (目标 收益 率 下 最 优 的 投资 组 合 ) 
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红星 : Sharpe 最 大 的 投资 组 合 
黄 星 : 方差 最 小 的 投资 组 合 


plt. figure(figsize = (8,4)) 
# 贺 圈 : 蒙特 卡 洛 随机 产生 的 组 合 分 布 


plt. scatter(port_variance，Pport_returns，c = port_returns/port_variance marker = '0') 


# 叉 号 : 有 效 边界 


plt. scatter(target_variance target_returns，c = target returns/target variance, marker = 'x') 


# 红 星 : 标记 最 高 sharpe 组 合 

plt. plot(statistics(opts[ 'x'])[1], statistics(opts[ 'x'])[0], 'r*', markersize 
# 黄 星 : 标记 最 小 方差 组 合 

plt.plot(statistics(optv[ 'x'])[1], statistics(optv[ 'x'])[0], 'y*', markersize 
plt. grid(True) 

plt. xlabel( ‘expected volatility') 

plt. ylabel( 'expected return') 

plt. colorbar(label = 'Sharpe ratio') 


得 到 如 图 13-20 所 示 的 图 形 。 
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图 13-20 ”投资 组 合 的 可 行 集 和 有 效 边界 


15.0) 


15.0) 


13.6 蒙特 卡 罗 模 拟 股 票 期 权 定价 的 Python 应 用 


设 初始 股票 价格 SO 一 100, 欧 式 看 涨 期 权 的 执行 价格 X 一 100, 到 期 时 间 T 一 1 年 ,固定 


无 风险 利率 "一 10%%; 固定 波动 率 oc 二 20%。 我 们 有 
Sr = Soexp[(r—0.50)T+o. z VT] 
则 计算 欧式 看 涨 期 权 的 价格 的 步骤 如 下 : 
(1) 从 标准 正 态 分 布 中 取得 i 个 ( 伪 ) 随 机 数 z(2) ,i€ {1,2,…,N}); 
(2) 为 给 定 的 ziD 和 公式 (1) 计 算 到 期 的 标的 资产 股票 价格 水 平 Sr (2); 
(3) 计算 到 期 时 期 权 的 所 有 内 在 价值 ar(iD 一 max(CSr(GD 一 X,0) ,那么 


N 
本 = ND 


(4) 通过 公式 (2) 中 给 出 的 蒙特 卡 洛 方法 估计 的 股票 看 涨 期 权 现 值 。 


(1) 


(2) 
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图 


例 13-4 考虑 不 支付 红利 股票 的 欧式 看 涨 股票 期 权 , 它 的 标的 资产 股票 价格 是 100 元 ， 
执行 价格 是 100 元 ,无 风险 利率 是 10% ,年 波动 率 是 25% ,期 权 的 有 效 期 是 1 年 ,用 蒙特 卡 
罗 法 计算 其 欧式 看 涨 股票 期 权 的 价格 。 

解 : 在 本 例 中 ,So 一 100.0; X=100.0; T=1.0; r 一 0.1; sigma 一 0.25。 

编制 蒙特 卡 洛 模拟 法 计算 欧式 看 涨 期 权 的 Python 代码 如 下 : 


S0=100.0;X=100.0;T=1.0;r=0.1;sigma= 0.25 

from NumPy import * 

N= 50000 

z= random. standard normal(N) 

ST= SO x exp((r—0.5x* sigmax sigma) * T+ sigma* z* sqrt(T)) 
hT = maximum(ST — X,0) 

C0 = exp( —r*T)* sum(hT)/N 

Print "C0 = "，C0 


得 到 如 下 结果 : 
C0 = 14.9884387473 


请 读者 思考 : 如 果 要 求 上 面 给 定数 据 的 欧式 看 跌 股票 期 权 , 则 上 面 的 代码 应 如 何 修改 ? 
我 们 把 上 面 的 程序 代码 编写 成 函数 的 形式 如 下 : 
def qqdj(S0,X,T, r, sigma, N): 
z= random. standard_normal(N) 
ST= SO* exp((r—0.5* sigma*x sigma) * T+ sigma * z* sqrt(T)) 
hT = maximum(ST— X,0) 
C0 = exp( — rx*T)* sum(hT)/N 
return C0 
from NumPy import * 
res = qqdj(100, 100,1.0,0.1,0.25,50000) 
print "res = ",res 


得 到 如 下 结果 : 


res= 14.9623748966 


13.7 ”蒙特 卡 罗 模 拟 期 权 价 格 稳定 性 的 Python 应 用 


蒙特 卡 罗 模 拟 精度 与 模拟 次 数 密切 相关 ,模拟 次 数 越 多 ,其 精度 越 高 ,但 是 次 数 增加 又 
会 增加 计算 量 。 实 践 表明 ,减少 模拟 方差 可 以 提高 稳定 性 ,减少 模拟 次 数 。 有 很 多 方法 可 以 
减少 方差 ,如 对 偶 变 量 技术 ,控制 变量 技术 、 分 层 抽 样 、 矩 匹配 条件 蒙 特 卡 罗 模 拟 等 ,但 最 简 
单 且 应 用 最 为 广泛 的 是 对 偶 变 量 技术 和 控制 变量 技术 。 


13.7.1 对 偶 变量 法 


对 偶 变 量 技术 就 是 先 随 机 抽样 得 到 一 组 数据 ,然后 以 此 为 基础 构造 出 另 一 组 对 偶 变量 。 
下 面 以 正 态 分 布 为 例 介绍 对 偶 变 量 技术 ,首先 从 正 态 分 布 变量 中 随机 抽取 NN 个 样本 值 ,分 
别 为 Z;:(i 二 1,2,… ,NN), 由 此 可 以 得 到 NN 个 模拟 值 C;(i 二 1,2,…,N) ,那么 衍生 证 券 蒙特 卡 
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罗 模拟 估计 值 为 © 
C= NC e 
以 Z(i=1,2,… ,NN) 为 基础 ,构造 对 偶 随机 数 Z;== 一 Z;,2; 是 与 Z;(i 二 1,2,…,N) 相 互 


对 侦 的 随机 数 ,由 正 态 分 布 性 质 可 知 ,Z;= 一 Z;(i==1,2,…,N) ,也 是 服从 正 态 分 布 ,由 对 偶 
随机 数 生成 的 估计 值 为 


区 = N22 6, 
对 C 和 C 取 平均 ,得 到 新 的 估计 值 : 
C=3(C+O = ND ) 
如 果 随 机 抽样 的 样本 Z;(i 二 1,2,…, NN) 模拟 得 到 的 估计 值 比较 小 ,那么 与 之 对 偶 的 随 
机 抽样 样本 Z;== 一 Z;(i 二 1,2,…,N) 得 到 的 估计 值 可 能 会 偏 大 ,二 者 的 平均 值 就 可 能 会 接 
近 真实 值 。 如 果 cov(G;,C,) 达 0, 那 么 


GG Ya < 全 六 亚 A 
var 人 了 ) Fvar(Ci) : 二 cov(CCD) < 7 var(Ci) 


从 上 面 的 不 等 式 可 以 看 出 ,利用 对 偶 技术 可 以 增加 估计 稳定 性 、 提 高 估计 精度 。 
根据 对 偶 变 量 法 的 基本 思想 ,编写 Python 程序 的 步骤 大 致 如 下 : (1) 模 拟 标的 资产 的 
价格 路 径 ; (2) 计 算 两 个 期 权 损 益 值 ,其 中 一 个 是 按照 常规 蒙特 卡 洛 法 计算 的 结果 , 另 一 个 
是 改变 所 有 正 态 分 布 符号 计算 出 来 的 结果 ; (3) 计 算 期 权 的 价格 , 即 计算 上 述 两 个 期 权 的 平 
均值 并 将 计算 结果 进行 贴现 。 
我 们 编制 对 偶 变 量 法 模拟 期 权 价格 的 Python 代码 如 下 。 
def doqqdj(S0,X,T,r, sigma, N): 
z= random. standard normal(N) 
ST1 = SO x* exp((r—0.5*x sigma* sigma) * T+ sigma * z* sqrt(T)) 
ST2= SO x exp((r—-0.5* sigmax sigma) * T+ sigma* (—2z)* sqrt(T)) 
hT1 = maximum(ST1 — X, 0) 
hT2 = maximum( ST2 — X, 0) 
Cl = exp( — rx*T)*x sum(hT1)/N 
C2 = exp( — rx*T)*x sum(hT2)/N 
return (C1 + C2)/2 
例 13-5 考虑 不 支付 红利 股票 的 欧式 看 涨 期 权 , 它 们 的 标的 资产 价格 是 100 元 ,执行 价 
格 是 100 元 ,无 风险 利率 是 10% ,年 波动 率 是 25% ,期 权 的 有 效 期 是 1 年 ,用 对 偶 变 量 法 计 
算 其 欧式 看 涨 价格 。 
解 : 在 本 例 中 ,S 一 100,X 一 100,r 一 0.1,c 一 0.25,T 一 一 1。 
利用 对 偶 变量 法 计算 期 权 价 格 的 步 又 如 下 。 


(1) 模拟 标的 变量 路 径 并 计算 C 
Sr = Sexp[(r—0.50)(T—2) ee VT—t] 
一 1l00exp[ (0.1—0.5X0.25) X1++0.25eVl] 
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es@@ 


C= max(0,S7 — X) 
(2) 改变 随机 变量 s 的 符号 ,模拟 标的 变量 路 径 并 计算 C 
Si = S,exp[(r—0.50)(T—7) +o(—e) VT—#] 
= l00exp[ (0.1—0.5X0.25:) X1 十 0.25( 一 se) | 


C= max(0,S+ — X) 
(3) 计算 C 和 C 的 平均 值 
,A _ 1Afc+C， 
C=FC+O) | 5 】 
(4) 模拟 次 并 求 C 二 max(0,S5 一 X) 的 平均 值 和 C 二 max(0,S5 一 X) 的 平均 值 ,两 者 


的 算术 平均 值 贴现 后 即 为 所 求 的 期 权 价格 。 
Python 函数 调用 如 下 : 


from NumPY import 关 
res = dogqdj(100, 100, 1. 0,0.1,0.25,5000) 
print "res=",res 


得 到 如 下 结果 : 
res= 14.8926713193 
根据 C= 二 SN(di) 一 Xexp( 一 r/T)N (d,s) ,编制 B-S 期 权 定价 公式 Python 函数 如 下 : 


def bscall_ option(S, X, rf, sigma, T): 
dl= (log(S/X) + (rf + 0.5x sigma*x* x*2)*T)/(sigmax*x sqrt(T)) 
d2=dl- sigmax sqrt(T) 
C=S*norm.cdf(di) 一 Xx exp( — rf * T) * norm. cdf(d2) 
returnC 


调用 此 函数 


from SciPy. stats import norm 
S=100.0;X=100.0;rf=0.1;sigma=0.25;T=1.0 
res = bscall option(S,X, rf, sigma, T) 

print "res=",res 


结果 如 下 : 

res= 14.9757907783 

将 这 里 的 B-S 期 权 定价 Python 孔 数 计算 结果 14. 9757907783 与 上 述 的 对 偶 技 术 模 拟 
结果 14. 8926713193 进行 比较 可 见 基本 上 接近 。 
13.7.2 控制 变量 法 


控制 变量 法 就 是 将 与 所 估计 的 未 知 变量 密切 相关 的 另 一 个 已 知 量 的 真实 值 和 估计 值 之 
间 的 差异 作为 控制 量 , 以 提高 估计 精度 。 在 定价 实践 中 ,将 两 种 衍生 证 券 用 相同 的 随机 抽样 
样本 和 时 间 间 隔 , 实 施 同样 的 蒙特 卡 罗 模 拟 过 程 ,能 够 得 到 两 个 模拟 估计 值 :以 第 二 种 衍生 
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证 券 真 实 值 与 估计 值 之 间 的 差异 作为 控制 变量 ,最 后 得 到 第 一 种 衍生 证 券 的 蒙特 卡 罗 估 
计 值 。 

假设 Vi 是 需要 估计 的 第 一 种 衍生 证 券 的 价值 ,V。 是 价值 容易 估计 的 第 二 种 衍生 证 券 
的 价值 ,第 一 种 证 券 与 第 二 种 证 券 相似 ,而 V, 与 V, 分 别 是 第 一 种 衍生 证 券 和 第 二 种 衍生 证 
券 在 同样 的 随机 抽样 样本 的 蒙特 卡 罗 估 计 值 ,那么 利用 控制 变量 技术 得 到 第 一 种 衍生 证 券 
的 价格 估计 值 为 

V9 = V+ (Vs —V) 

这 里 ,Vs 一 Vs 就 是 控制 变量 , 它 实际 上 是 第 二 种 衍生 证 券 的 蒙特 卡 罗 模 拟 的 估计 误差 ， 

且 上 述 方程 的 方差 之 间 的 关系 为 
var(V9) = var(V, var(Vs) * 2cov(V， 人 | 
如 果 vr( 访 )<2cov(V, ) ,一 定 有 


var(Vf) < var(V1) 
因此 , 当 两 种 衍生 证 券 的 协 方差 很 大 时 ,或 者 当 两 种 衍生 证 券 的 价格 高 度 相 关 时 ,上 述 
关系 是 成 立 的 ,两 种 衍生 证 券 的 正 相 关 性 越 强 , 估 计 效 率 就 越 理 想 。 然 而 从 实际 应 用 的 角度 
看 ,这 种 控制 变量 技术 的 应 用 十 分 有 限 ,因此 ,下 面 是 更 一 般 的 控制 变量 技术 ,其 控制 变量 的 
形式 为 
Ve =V+BVs — Va) 
方差 为 
ate vot Wy | Fvar(Vz) 2Bcov(V Wy 
这 是 关于 控制 变量 系数 8 的 二 次 三 项 式 , 下 面 的 目标 是 能 够 找到 特殊 的 8 使 方差 
SOYO Ve》 就 可 以 保证 方差 var(W) 最 小 。 这 种 控制 变量 技 
var(V,) 
术 的 缺点 是 8 需要 提前 知道 协 方差 covCVi,V;) 的 信息 ,而 这 一 般 需 要 靠 经 验 实现 。 
我 们 编制 控制 变量 法 的 Python 函数 如 下 。 


var(V 人 ) 最 小 ,这 时 只 要 取 8 一 


def bscal1_option(S,X,r, sigma, T): 
dl = (log(S/X) + (r+0.5* sigma* *2)*T)/(sigma*x sqrt(T)) 
d2=dl- sigmax* sqrt(T) 
C=Sxnorm.cdf(dl) —- X* exp( —r*T)* norm.cdf(d2) 
returnC 


def kzqqdj(S1, S2,X, T, r, sigma, N): 
BSC = bscall_ option(S2,X,r, sigma, T) 
zl = random. standard_normal(N) 
z2 = random. standard_normal(N) 
ST1 = S1 * exp((r— 0.5*x sigma*x sigma) * T+ sigma * z1 x* sqrt(T)) 
ST2= S2 x exp((r-0.5* sigmax sigma) * T+ sigma * z2* sgqrt(T)) 
hT1 = maximum( ST1 — X, 0) 
hT2 = maximum( ST2 — X, 0) 
Cl = exp( — rx*T)* sum(hT1)/N 
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C2 = exp( -rx*T)* sum(hT2)/N 

return Cl + BSC— C2 

例 13-6 考虑 不 支付 红利 股票 的 欧式 看 涨 期 权 , 它 们 的 标的 资产 价格 是 100 元 ,执行 价 
格 是 100 元 ,无 风险 利率 是 10% ,年 波动 率 是 25% ,期 权 的 有 效 期 是 1 年 ,用 对 偶 变量 法 计 
算 其 欧式 看 涨 价格 。 

解 : 在 本 例 中 ,S=100,X=100,r=0.1,c=0.25,T 一 t==1。 

利用 控制 变量 法 计算 期 权 价格 的 步骤 如 下 。 

(1) 由 B-S 期 权 定价 公式 给 出 欧式 看 涨 期 权 的 价格 V,。 


(2) 由 蒙特 卡 洛 法 计算 V, 与 V， 
Sr Siexp[L(r—0.50)(T—#t)+ae VT—+t] 
= 100exp[(0.1 一 0.5X0.25:) X1 十 0.25sVl] 
Si = Siexp[(r 一 0.5o2)(T 一 四 十 吧 VvT—t] 
= 100exp[(0.1 一 0.5X0.252) X1 十 0.25evVI] 
从 正 态 分 布 中 随机 抽取 一 个 样本 s 就 给 出 一 个 Sr 和 一 个 S7 的 值 , 取 max(0,Sr 一 X) 
和 max(0,Sr 一 X), 则 每 模拟 一 次 就 得 到 两 个 欧式 看 涨 期 权 在 工时 刻 的 值 。 假 设 模拟 次 
数 5000, 则 分 别 给 出 5000 个 Si 和 5000 个 S51 的 值 , 从 而 有 5000 个 max(0,S 一 X) 和 
max(0,Sr 一 X) ,分 别 计算 它们 的 算术 平均 值 并 无 风险 利率 贴现 ,就 得 到 了 欧式 看 涨 期 权 的 
两 个 估计 值 W 与 V。 
(3) 将 上 述 所 得 结果 代入 V8 = 六 十 (V, 一 V。) ,得 出 欧式 看 涨 期 权 的 估 值 。 
(4) 模拟 次 并 求 max(0,S7 一 XX) 的 平均 值 和 max(0,S7 一 X) 的 平均 值 ,两 者 的 算术 
平均 值 贴现 后 即 为 所 求 的 期 权 价格 。 
Python 函数 调用 如 下 : 
from NumPY import * 
from SciPy. stats import norm 
S1=100;S2=100; X=100.0;r=0.1;sigma=0.25;T=1.0;N= 5000 


res= kzqqdj(S1, S2,X,T, r, sigma, N) 
print "res=",res 


得 到 如 下 结果 : 


res= 14.8921067991 


练 习 题 


对 本 章 中 的 例题 ,在 网 上 选择 数据 ,使 用 Python 中 的 工具 重新 操作 一 遍 。 


辅助 资源 说 明 
尊敬 的 读者 : 


您 好 ! 感谢 您 选用 清华 大 学 出 版 社 的 图 书 ! 为 帮助 读者 更 加 方便 地 学 习 本 书 ， 我 们 
将 书 中 实例 的 数据 文件 和 其 他 数据 资源 打包 收录 ， 请 您 扫描 二 维 码 获取 。 


扫描 二 维 码 
获取 数据 资源 


为 方便 教师 选用 教材 ， 我 们 为 您 提供 免费 赠送 样 书 服务 。 授 课 教师 扫描 下 方 二 维 码 


即 可 获取 清华 大 学 出 版 社 教材 电子 书目 。 在 线 填 写 个 人 信息 ， 经 审核 认证 后 即 可 获取 所 
选 教材 。 我 们 会 第 一 时 间 为 您 寄 送 样 书 。 


:任课 教师 扫 措 二 维 码 
可 效 取 教 材 电子 书目 


‘a 清华 大 学 出 版 社 


E-mail: tupfuwu(@163.com 网 址 : http://www.tup.com.cn/ 
电话 : 8610-62770175-4506/4340 传真 : 8610-62775511 


地 址 ， 北 京 市 海淀 区 双 清 路 学 研 大 厦 B 座 509 室 邮编 ， 100084 


